Perguntar ao Dr. Google pode ser mais rápido e confiável no futuro

Pesquisadores do Google e da Deepmind estão experimentando um grande modelo de linguagem para responder a perguntas médicas leigas. Med-PaLM gera respostas cientificamente sólidas no nível de especialistas humanos.

A equipe de pesquisa está contando com Palma , o grande modelo de linguagem do Google com 540 bilhões de parâmetros, cerca de três vezes mais que o GPT-3. O PaLM supera o GPT-3 em tarefas desafiadoras de linguagem e código, de acordo com o Google, e forma a porção de linguagem da empresa visão de caminhos . PaLM significa Pathways Language Model.

Com ajuste de prompt de instruções para um modelo de linguagem médica

Para o variante médica de PaLM a equipe de pesquisa desenvolveu um novo método rápido para ajustar uma variante do Flan-PaLM ao campo médico. Flan-PaLM é uma variante do PaLM ajustada com instruções para tarefas (como diálogos, perguntas frequentes, raciocínio), que o Google Brain introduziu em outubro.

Em vez de ajustar o PaLM com dados médicos, o que seria mais complexo, a equipe de pesquisa usou uma combinação de prompts suaves aprendidos durante o ajuste do prompt com uma pequena quantidade de dados médicos com prompts escritos por humanos para respostas médicas específicas. Para as últimas solicitações, a equipe de pesquisa colaborou com quatro médicos dos EUA e do Reino Unido.

Os pesquisadores chamaram essa combinação de prompts aprendidos e programados de “Ajuste de Prompt de Instrução”. O novo método é “eficiente em termos de dados e parâmetros”, escreve a equipe.

Até onde sabemos, nosso é o primeiro exemplo publicado de aprendizado de um prompt de software prefixado na frente de um prompt de hardware completo contendo uma mistura de instruções e exemplos de poucos disparos.

do papel

o Modelo Med-PaLM resultante do ajuste de prompt de instrução supera significativamente um modelo Flan-PaLM desajustado em respostas médicas e alcança “resultados encorajadores”, de acordo com a equipe de pesquisa, mas fica aquém do desempenho clínico.

Olhando para os resultados, esta conclusão está correta, mas também parece um eufemismo: O Med-PaLM tem um desempenho tão bom quanto os profissionais em quase todos os testes. A avaliação da qualidade da resposta também foi realizada por médicos.

Med-PaLM também forneceu significativamente menos respostas potencialmente prejudiciais. No Flan-PaLM, 29,7% das respostas poderiam resultar em danos à saúde. Para Med-PaLM, foi de apenas 5,9% em comparação com 5,7% para especialistas humanos. Mais uma vez, o modelo de linguagem médica funciona em pé de igualdade com os humanos.

Perguntar ao Dr Google pode ser mais rapido e confiavel

Quando avaliadas por leigos, as respostas de especialistas humanos foram classificadas como mais úteis, mas novamente o Med-PaLM teve um desempenho significativamente melhor do que o Flan-PaLM. Ambos os modelos de linguagem responderam às perguntas.

1675278348 731 Perguntar ao Dr Google pode ser mais rapido e confiavel

Modelos de linguagem podem ajudar profissionais médicos

O forte desempenho do Med-PaLM em questões médicas pode ser um capacidade emergente de modelos de linguagem , escrevem os pesquisadores em sua conclusão. Isso porque o desempenho do modelo é escalado com o número de parâmetros dos diferentes modelos PaLM (oito para 540 bilhões).

No entanto, o dimensionamento por si só não é suficiente para obter alta confiabilidade de resposta, conforme demonstrado pelo desempenho comparativamente fraco do modelo PaLM da Flan. É aqui que entra em ação o recém-introduzido ajuste de prompt de instrução.

De acordo com a equipe de pesquisa, 92,6% das respostas do Med-PaLM foram consideradas de acordo com o consenso científico. As respostas dos médicos pontuaram 92,9%, enquanto as respostas do Flan-PaLM pontuaram apenas 61,9%. Esta é uma indicação de que o ajuste de prompt de instrução é adequado como uma técnica de alinhamento para gerar respostas cientificamente sólidas, escreve a equipe.

Os resultados do Med-PaLM demonstram que, com o ajuste do prompt de instrução, temos uma técnica de alinhamento eficiente de dados e parâmetros, útil para melhorar fatores relacionados à precisão, factualidade, consistência, segurança, danos e viés, ajudando a fechar a lacuna com especialistas clínicos e trazendo esses modelos mais próximos de aplicações clínicas do mundo real.

do papel

O surgimento de modelos fundamentais de IA é uma “oportunidade significativa” para repensar como a IA médica é desenvolvida e torná-la “mais fácil, segura e equitativa de usar”, escrevem os pesquisadores. Eles veem seu trabalho como um ímpeto para mais trocas.

Complementando o Med-PaLM, a equipe de pesquisa está apresentando o MutliMedQA, uma referência que combina seis conjuntos de dados abertos existentes para responder a perguntas nas áreas de exames médicos, pesquisas e consultas ao consumidor, e HealthSearchQA, um novo conjunto de dados de texto livre de perguntas médicas pesquisado on-line.