Como ensinar matemática para um grande modelo de linguagem

A solicitação algorítmica ajuda modelos de linguagem grandes, como GPT-3, a resolver problemas matemáticos de maneira mais confiável.

Grandes modelos de linguagem como o GPT-3 são ruins em matemática – uma descoberta que atraiu muita atenção quando a OpenAI apresentou o modelo. Afinal, o fato de o GPT-3 poder adicionar alguns números foi surpreendente para alguns.

Desde então, os pesquisadores continuaram a desenvolver novos métodos para melhorar as capacidades matemáticas de grandes modelos de linguagem, por exemplo, com várias formas de engenharia imediata ou acesso a um interpretador Python externo .

Raciocínio algorítmico via engenharia de prompt?

Na engenharia de prompt, os pesquisadores experimentam diferentes padrões de entrada e medem seus efeitos na saída de modelos de linguagem. Sugestão de cadeia de pensamento por exemplo, mostra que solicitar uma abordagem passo a passo produz resultados significativamente melhores em algumas tarefas.

Mas, apesar desses avanços, os modelos de linguagem lutam para resolver tarefas algorítmicas simples. Um método de engenharia rápida desenvolvido por pesquisadores da Universite de Montreal e do Google Research, no entanto, aumenta significativamente o desempenho dos modelos em tarefas matemáticas.

A equipe formula entradas de prompt detalhadas que descrevem algoritmos para resolver problemas matemáticos, como para adição. O modelo de linguagem pode usar esse algoritmo como uma ferramenta para resolver problemas matemáticos semelhantes. Os pesquisadores avaliam sua abordagem em uma série de tarefas de raciocínio aritmético e quantitativo.

Por meio de sua abordagem de “prompting algorítmico”, os modelos de linguagem obtêm uma melhoria significativa de desempenho em comparação com outras estratégias de prompting: em particular, para paridade longa, adição, multiplicação e subtração, o método atinge uma redução de erro de até 10x e pode resolver tarefas com significativamente mais números do que outros prompts.

Os pesquisadores também mostram que os modelos de linguagem podem aprender várias habilidades, como adição e subtração, de forma acumulada, aplicar diferentes habilidades juntas e também usar as habilidades aprendidas como ferramentas em tarefas mais complexas.

Prompting algorítmico em tempos de ChatGPT

Usando a adição como exemplo, a equipe mostra que grandes modelos de linguagem podem aplicar instruções com apenas cinco dígitos a até 19 dígitos. Isso, dizem eles, é um exemplo de generalização fora da distribuição e um efeito direto da solicitação algorítmica. O método deve funcionar com mais dígitos, mas agora é limitado pelo comprimento do contexto do code-davinci-002-Model usado do OpenAI (8.000 tokens).

1675285884 296 Como ensinar matematica para um grande modelo de linguagem

O mais recente ChatGPT da OpenAI fornece respostas corretas para problemas matemáticos sem muita engenharia imediata. O OpenAI presumivelmente usa um interpretador externo para isso. Então, por que explorar mais métodos de engenharia imediata para matemática?

Uma área com espaço significativo para melhorias é a capacidade dos LLMs de realizar tarefas de raciocínio complexas. Nesse domínio, o raciocínio matemático oferece um desafio único como domínio. Requer a capacidade de analisar, desconstruir logicamente um problema em subproblemas e recombiná-los e aplicar o conhecimento de regras, transformações, processos e axiomas

do papel

Métodos como “instrução algorítmica” poderiam, assim, melhorar a capacidade de raciocínio dos modelos. Os modelos que aprendem a executar um algoritmo podem produzir resultados consistentes, reduzir as alucinações e, como “por serem entradas independentes por natureza, são imunes à degradação do desempenho OOD quando executados corretamente”.

A equipe vê o papel do comprimento do contexto como uma descoberta importante: pode ser possível converter um comprimento de contexto maior para um melhor desempenho de raciocínio, fornecendo exemplos de solução mais detalhados. “Isso destaca a capacidade de alavancar contextos longos (seja por meio do aumento do comprimento do contexto ou de outros meios, como a implementação de recorrência ou uma memória externa) e gerar fundamentos mais informativos como direções de pesquisa promissoras”.