Sumário
O Google combina modelos de linguagem com um simulador de física. O sistema de IA híbrido marca novos recordes em benchmarks de raciocínio físico.
Grandes modelos de linguagem como OpenAI’s GPT-3 ou o PaLM do Google não pode raciocinar de forma confiável. Este é um fato central no debate sobre o papel do Deep Learning no caminho para formas mais gerais de inteligência artificial.
Métodos como sugestão de cadeia de pensamento mais dados de treinamento e modelos maiores como PaLM levou a melhores resultados em benchmarks, mas não a um avanço fundamental.
Os pesquisadores estão, portanto, experimentando abordagens híbridas que usam os recursos de linguagem dos modelos de IA para emitir consultas a bibliotecas ou sistemas externos especializados.
WebGPT da OpenAI foi um dos primeiros exemplos disso. Mais recentemente, o pesquisador de IA Sergey Karayev GPT-3 conectado a um interpretador Python que podem realizar cálculos matemáticos exatos ou fazer solicitações de API.
Google vincula PaLM ao simulador MuJoCo
Os pesquisadores do Google agora vão um passo além ao vincular grandes modelos de linguagem para um simulador de física. Como os modelos de linguagem atuais são treinados exclusivamente com texto escrito, eles carecem da experiência fundamentada dos humanos no mundo real, escreve a equipe.
A incapacidade resultante de relacionar a linguagem com o mundo físico leva à deturpação do conhecimento, o que, por sua vez, leva a erros óbvios de raciocínio.
Para fundamentar os modelos de linguagem no mundo físico, os pesquisadores propõem enviar prompts de texto de um modelo de linguagem para uma simulação de física MuJoCo e, em seguida, usar os resultados como parte da entrada para o modelo de linguagem. A equipe chama isso paradigma “Mind’s Eye” e está a testá-lo com o benchmark de raciocínio físico UTOPIA desenvolvido para o efeito.
Mind’s Eye: texto para código para simulação
O Mind’s Eye consiste em três módulos: O modelo de linguagem passa perguntas cujas respostas requerem raciocínio físico para um modelo de linguagem de texto para código treinado com 200.000 pares de código de texto no estilo do benchmark UTOPIA.
O código gerado é passado para o MuJoCo, onde é executado. O resultado é então convertido em texto. Por fim, esse texto é transferido para a janela de entrada do modelo de linguagem e serve como entrada para a resposta final do modelo.
Usando esse método, os pesquisadores do Google obtêm grandes saltos no desempenho : o PaLM 540B do Google atinge 92,5 por cento em vez de 39,4 por cento no UTOPIA com Mind’s Eye, e InstructGPT da OpenAI atinge 99,1 por cento em vez de 68,6 por cento. Em média, a precisão dos modelos de linguagem testados aumenta em 27,9 no cenário zero e 46% no cenário de poucos disparos.
O Mind’s Eye do Google expande as possibilidades de modelos de linguagem
Além da escalabilidade da abordagem e do raciocínio baseado em simulação, o Mind’s Eye também é muito eficiente: como o método delega o conhecimento específico do domínio a módulos especialistas externos (neste caso MuJoCo), esse conhecimento é dissociado da capacidade de raciocínio.
O tamanho do modelo de linguagem necessário pode, assim, ser significativamente reduzido – a rede não precisa se lembrar do conhecimento específico do domínio. Na prática, a equipe conseguiu mostrar que modelos menores com Mind’s Eye atingem o desempenho de modelos 100 vezes maiores no benchmark UTOPIA.
Concluímos que o Mind’s Eye não é apenas eficaz e escalável, mas também eficiente, pois é capaz de aumentar significativamente o desempenho do raciocínio de LMs de pequena escala, não exigindo prompts artesanais nem ajustes caros.
Papel do Olho da Mente
A equipe acredita que a ideia de contar com um pipeline de simulação para raciocínio pode ser facilmente estendida a outras áreas – especialmente onde já existem simulações. Por exemplo, mudanças econômicas ou simulações termodinâmicas podem ser usadas.
“A natureza dinâmica do Mind’s Eye, onde geramos evidências fundamentadas, libera o potencial de escala desses modelos”, afirma o artigo.
Em outras palavras, o potencial de grandes modelos de IA ainda não está esgotado, e técnicas como o Mind’s Eye podem desbloquear novos recursos sem exigir tecnologias de IA fundamentalmente novas.