Grandes modelos de linguagem podem melhorar a si mesmos

Novas pesquisas mostram que grandes modelos de linguagem (LLMs) podem melhorar quando ajustados com suas próprias inferências.

Grandes modelos de linguagem geralmente podem resolver muitas tarefas, mas apenas algumas delas são inerentemente altamente complexas. O chamado ajuste fino ajuda a adaptar grandes modelos de linguagem para tarefas específicas. Dados específicos selecionados são compilados para este pós-treinamento.

Com essa abordagem, sistemas de linguagem especializados podem ser abstraídos de um grande modelo de linguagem, que consome muito menos recursos do que o treinamento real do modelo de linguagem. No entanto, ainda é necessário algum esforço manual, por exemplo, para a preparação dos dados.

Grandes modelos de linguagem podem melhorar a si mesmos com suas próprias respostas

Pesquisadores da Universidade de Illinois em Urbana-Champaign e do Google agora mostram que grandes modelos de linguagem podem usar sugestão de cadeia de pensamento para autogerar dados de treinamento para pós-treinamento e tirar conclusões corretas com mais frequência após o treinamento com esses dados.

Para isso, a equipe de pesquisa Modelo de linguagem grande do Google PaLM gerar respostas para uma série de perguntas como cadeias de pensamento. Na etapa seguinte, os pesquisadores filtraram as respostas mais consistentes, que não são necessariamente as corretas, usando o método de votação por maioria. Eles usaram as respostas filtradas dessa maneira como dados para ajustar o modelo. Os pesquisadores chamam essa abordagem de “autoconsistência.

Isso é semelhante a como um cérebro humano às vezes aprende: dada uma pergunta, pense várias vezes para obter diferentes resultados possíveis, conclua como a pergunta deve ser resolvida e
então aprenda ou memorize sua própria solução.

Trecho do papel

Os pesquisadores estimam que a possível influência de respostas incorretas no ajuste fino é pequena: se uma resposta tiver cadeias de pensamento mais consistentes, é mais provável que esteja correta. Por outro lado, respostas incorretas provavelmente teriam poucas cadeias de pensamento consistentes e, portanto, não teriam um impacto significativo no desempenho de um modelo no ajuste fino.

Modelo de linguagem auto-aprimorado atinge novos recordes em benchmarks

Em seis benchmarks de inferência de máquina, o modelo de linguagem ajustado com inferências autogeradas alcança melhorias entre 1,1 e 7,7 por cento. Ele alcança novas pontuações máximas nos benchmarks ARC, OpenBookQA e ANLI.

A melhoria de desempenho do modelo de linguagem com conjuntos de dados não rotulados autogerados mostra que os sistemas podem obter melhor desempenho sem mudanças fundamentais na arquitetura – e com uma abordagem relativamente simples. Em uma próxima etapa, os pesquisadores planejam combinar dados autogerados com dados rotulados para melhorar ainda mais o desempenho dos LLMs.

Outro exemplo do potencial de otimização de grandes modelos de linguagem é Olho da Mente da Mente Profunda . Aqui, os dados de um simulador de física ajudam o modelo de linguagem a tirar melhores conclusões lógicas para questões de física. Em vez de ajustar com dados adicionais, o Deepmind adota uma abordagem híbrida neste caso, terceirizando conhecimento especializado para um sistema especializado externo.