Deepmind: Inteligência Artificial está longe de ser farta

Os modelos gigantes de linguagem de IA, como GPT-3 ou PaLM, são mal treinados? Um estudo da Deepmind mostra que podemos esperar mais saltos no desempenho.

Grandes modelos de linguagem como o GPT-3 da OpenAI, o Gopher da Deepmind ou, mais recentemente, O poderoso PaLM do Google dependem de muitos dados e redes neurais gigantescas com centenas de bilhões de parâmetros. O PaLM, com 540 bilhões de parâmetros, é o maior modelo de linguagem até hoje.

A tendência para mais e mais parâmetros decorre da descoberta anterior de que o as capacidades de grandes modelos de IA escalam com seu tamanho. Em alguns casos, as redes gigantes podem resolver tarefas que seus desenvolvedores não previram.

O Google PaLM pode explicar piadas, por exemplo, e tem uma capacidade rudimentar de pensar logicamente: com base em alguns exemplos no prompt (o chamado aprendizado de “alguns tiros”), o modelo realmente aprende a explicar sua resposta de maneira lógica . Os pesquisadores chamam esse processo de “sugestão de cadeia de pensamento”.

Pouco antes do lançamento do PaLM, os pesquisadores da Deepmind apresentaram o modelo de linguagem Chinchilla. O time estudou a interação entre o tamanho do modelo em parâmetros e a quantidade de dados de texto medido na menor unidade processada, tokens.

Chinchilla da Deepmind mostra: mais dados, melhor desempenho

Embora nos últimos anos o foco dos pesquisadores de IA tenha sido em mais parâmetros para um melhor desempenho, o Deepmind reduziu o tamanho da rede em Chinchilla e, em vez disso, aumentou significativamente a quantidade de dados de treinamento. Como no treinamento de IA o poder computacional necessário depende do tamanho do modelo e dos tokens de treinamento, ele permaneceu no mesmo nível do modelo de linguagem de IA Gopher, também da Deepmind.

Gopher tem 280 bilhões de parâmetros e foi treinado com 300 bilhões de tokens. Chinchilla é quatro vezes menor com apenas 70 bilhões de parâmetros, mas foi treinado com cerca de quatro vezes mais dados – 1,3 trilhão de tokens.

Apesar dos mesmos custos de treinamento para Chinchilla e Gopher, o modelo “minúsculo” de IA tem um desempenho melhor do que seu antecessor em quase todas as tarefas de fala. O Chinchilla até supera modelos de linguagem significativamente maiores, como GPT-3 ou o enorme modelo Megatron-Turing NLG da Nvidia e Microsoft com 530 bilhões de parâmetros. Apenas o PaLM do Google, com seus 540 bilhões de parâmetros e 768 bilhões de tokens de treinamento, tem um desempenho melhor do que o Chinchilla.

PaLM do Google é massivamente mal treinado

Chinchilla da Deepmind mostra que modelos gigantes de linguagem de IA são mal treinados e que modelos menores de IA treinados com muitos dados também podem alcançar alto desempenho. Modelos menores como o Chinchilla também são mais baratos de executar e podem ser otimizados para casos de uso específicos com poucos dados adicionais.

Com essa abordagem, uma variante “pequena” do PaLM com 140 bilhões de parâmetros poderia alcançar o mesmo desempenho que a versão grande do PaLM com 540 bilhões de parâmetros, de acordo com os pesquisadores da Deepmind. No entanto: o mini PaLM exigiria muito mais dados de treinamento – impressionantes três trilhões de tokens de treinamento em vez de apenas 768 bilhões de tokens.

Ou, e isso provavelmente já está na agenda de pesquisa do Google: O Google aceita os custos de treinamento mais altos e treina a maior versão do PaLM com significativamente mais dados. Como a curva de escala do PaLM é semelhante à dos modelos de linguagem mais antigos, como o GPT-3, a equipe de pesquisa do Deepmind assume que o aumento de desempenho por meio de escalonamento ainda não chegou ao fim.

No entanto, um modelo de linguagem tão abrangente requer mais de dez trilhões de tokens para treinamento de IA, de acordo com a Deepmind – mais de dez vezes o maior conjunto de dados de treinamento para modelos de linguagem até o momento.