Sumário
Metas Toolformer é projetado para aprender a usar ferramentas de forma independente, superando modelos de linguagem maiores em certas tarefas downstream.
A Linguagem Natural é a linguagem de programação do cérebro, escreveu o autor de ficção científica Neal Stephenson em seu romance de 1992, Snow Crash. Avanços recentes no processamento de máquina de linguagem natural mostram que a linguagem também pode ser a linguagem de programação das máquinas – conforme elas melhoram em entendê-la.
Com o “Toolformer”, a Meta quer estender este princípio ao uso de ferramentas.
O fato de ferramentas externas poderem ser encaixadas em um modelo de linguagem para melhorar seu desempenho não é uma novidade. O que há de novo no Toolformer é que o sistema aprendeu a fazer isso sozinho, permitindo acessar um conjunto muito maior de ferramentas de maneira autodirigida.
As ferramentas anteriores exigiam grandes quantidades de anotações humanas ou limitavam o uso de ferramentas externas para tarefas específicas, escrevem os pesquisadores. Isso dificulta o uso de modelos de linguagem para aplicações de ferramentas mais amplas, dizem eles.
Com a abordagem do Toolformer, no entanto, um modelo de linguagem pode controlar uma variedade de ferramentas e decidir por si mesmo qual ferramenta usar, quando e como os pesquisadores escrevem.
O Toolformer procura de forma autônoma por APIs úteis para resolver melhor as tarefas
O Toolformer é otimizado para decidir autonomamente quais APIs chamar e quais argumentos passar. Ele também integra os resultados gerados no processo na previsão de tokens futuros.
O modelo aprende esse processo de maneira auto-supervisionada com base em exemplos: os pesquisadores fizeram um modelo de linguagem aprender um “punhado” de instruções de API escritas por humanos para rotular um grande conjunto de dados de possíveis ações de API. A partir deles, os pesquisadores selecionaram automaticamente exemplos úteis para ajustar seu modelo Toolformer. Eles usaram cerca de 25.000 exemplos por API.
Após o treinamento, os pesquisadores dizem que o modelo de linguagem de forma automática e bem-sucedida chamou a API de uma calculadora, um sistema de perguntas e respostas, dois mecanismos de pesquisa diferentes, incluindo uma pesquisa na Wikipedia, um sistema de tradução e um calendário. Dependendo da tarefa textual, o modelo decide independentemente se e quando acessar uma ferramenta.
De acordo com os pesquisadores, o uso das ferramentas melhorou significativamente o desempenho zero-shot de um modelo GPT-J com apenas 6,7 bilhões de parâmetros, permitindo superar o modelo GPT-3 muito maior com 175 bilhões de parâmetros em tarefas selecionadas.
A capacidade de um modelo ter melhor desempenho com ferramentas ficou evidente em testes a partir de cerca de 775 milhões de parâmetros. Modelos menores tiveram desempenho semelhante com e sem ferramentas. Uma exceção foi a API da Wikipedia usada para tarefas de resposta a perguntas, provavelmente porque essa API era muito fácil de usar, sugerem os pesquisadores. No entanto, o Toolformer não superou o desempenho do GPT-3 nos benchmarks de controle de qualidade.
Embora os modelos se tornem melhores na resolução de tarefas sem chamadas de API à medida que aumentam de tamanho, sua capacidade de fazer bom uso da API fornecida melhora ao mesmo tempo. Como consequência, ainda existe uma grande lacuna entre as previsões com e sem chamadas de API, mesmo para nosso maior modelo.
do papel
O princípio do toolformer pode ajudar a minimizar problemas fundamentais de grandes modelos de linguagem
A capacidade de um modelo de linguagem de usar ferramentas externas por conta própria pode ajudar a resolver problemas fundamentais de grandes modelos de linguagem, como resolver problemas matemáticos de forma confiável ou verificar fatos, de acordo com os pesquisadores.
No entanto, o sistema ainda tem limitações, disseram eles. As ferramentas não podem ser usadas sequencialmente, como usar a saída de uma ferramenta como entrada para a próxima, porque as instruções da API para cada ferramenta são geradas independentemente. Isso limita os cenários de aplicativos.
Além disso, o modelo não pode usar as ferramentas interativamente. Por exemplo, o modelo de idioma não pode pesquisar os muitos resultados de um mecanismo de pesquisa e especificar sua consulta com base nesses resultados.
Além disso, o acesso à ferramenta é sensível ao fraseado exato de uma consulta para decidir se deve invocar a ferramenta e foi ineficiente em termos de amostra. O processamento de mais de um milhão de documentos renderia apenas alguns milhares de exemplos de chamadas significativas para a API da calculadora. Além disso, o Toolformer não considera o custo computacional de uma chamada de API.