IA geral por meio do dimensionamento: o chefe de IA da Meta, Yann LeCun, fala

O avanço para a IA geral precisa de mais dados e poder de computação acima de tudo? Yann LeCun, cientista-chefe de IA da Meta, comenta sobre o recente debate sobre dimensionamento provocado pelo Gato da Deepmind.

Os sucessos recentes de grandes modelos de IA, como DALL-E 2 da OpenAI , PaLM do Google e Flamingo da mente profunda provocaram um debate sobre sua importância para o progresso em direção à IA geral. gato da mente profunda recentemente deu um impulso particular ao debate, que tem sido conduzido publicamente, especialmente no Twitter.

Gato é um modelo Transformer treinado com várias modalidades de dados, incluindo imagens, texto, propriocepção ou momentos conjuntos. Todos os dados de treinamento são processados ​​pelo Gato em uma sequência de token semelhante àquela dos modelos de linguagem grandes. Graças ao treinamento versátil, Gato pode enviar mensagens de texto, descrever imagens, jogar videogames ou controlar braços robóticos. A Deepmind testou o modelo de IA com mais de 600 benchmarks.

Deepmind’s Gato e escala como um caminho para a inteligência artificial geral

A Deepmind vê o Gato como um passo importante no caminho para um modelo generalista de IA. Como é exatamente esse caminho? Segundo Nando de Freitas, chefe de pesquisa da Deepmind, é tudo uma questão de escala. O dimensionamento destina-se a levar Gato ao seu objetivo, possivelmente inteligência artificial geral. Pelo menos é assim que Freitas pode ser entendido quando diz: “O jogo acabou”.

De Freitas assim afirma o que muitos na indústria de IA pensam, suspeita que o cientista cognitivo e pesquisador de IA Gary Marcus . Marcus chama essa abordagem de “Scaling-Uber-Alles” e a critica como míope.

Mas de onde vem a confiança no dimensionamento? Subjacente é um fenômeno que pode ser observado em vários modelos de Transformer desde GPT-1: Com um maior número de parâmetros e dados correspondentes para treinar o desempenho dos modelos, por exemplo, no processamento de fala ou geração de imagem, aumenta – às vezes aos trancos e barrancos.

Isso também pode ser observado em Gato: Deepmind treinou três variantes do modelo de IA. A maior variante com um número relativamente pequeno de 1,18 bilhão de parâmetros estava claramente à frente dos modelos menores. Considerando grandes modelos de linguagem com centenas de bilhões de parâmetros e os saltos no desempenho observados ali, a esperança de Freitas no escalonamento de Gato é compreensível.

O chefe da Metas AI, Yann LeCun, vê grandes desafios além do dimensionamento

Agora, o chefe da Metas AI, Yann LeCun, está falando sobre o debate sobre a importância dos avanços recentes. Ele segue posições que expressou várias vezes antes, como em um podcast com Lex Fridman em três grandes desafios da inteligência artificial ou em um post no desenvolvimento de IA autônoma .

LeCun vê modelos como Flamingo ou Gato como uma indicação de que a comunidade de pesquisa está fazendo “algum” progresso em direção à inteligência artificial de nível humano (HLAI). LeCun acha que o termo inteligência artificial geral é equivocado.

Mas ainda faltam alguns conceitos fundamentais para o futuro, disse LeCun. Segundo ele, alguns deles estão mais próximos da implementação do que outros, como o aprendizado autossupervisionado generalizado.

Mas não está claro quantos desses conceitos são necessários – apenas os mais óbvios são conhecidos. “Portanto, não podemos prever quanto tempo levará para atingir o HLAI”, escreve LeCun.

Escalar sozinho não resolverá o problema, então LeCun pede novos conceitos. As máquinas teriam que:

  • aprender como o mundo funciona observando como bebês,
  • aprenda a prever como alguém pode influenciar o mundo por meio de ações,
  • aprender representações hierárquicas que permitem previsões de longo prazo em espaços abstratos,
  • lidar adequadamente com o fato de que o mundo não é completamente previsível,
  • permitem que os agentes prevejam os efeitos das sequências de ações de modo a serem capazes de raciocinar e planejar,
  • permitem que as máquinas planejem hierarquicamente, decompondo uma tarefa complexa em subtarefas,
  • tudo isso de maneira compatível com o aprendizado baseado em gradiente.

A solução para todas essas tarefas não é iminente, disse LeCun. Portanto, o dimensionamento é necessário, mas não suficiente para um maior progresso.

Segundo LeCun, o jogo ainda não acabou. Ao contrário de Freitas, o chefe de IA da Meta chega a uma conclusão sóbria: “Temos uma série de obstáculos a eliminar e não sabemos como”.