Sumário
Grandes modelos de linguagem de IA são uma das maiores conquistas da pesquisa de IA recentemente. O chefe de IA da Meta, Yann LeCun, descreve suas limitações – e elas não são técnicas.
Quando as primeiras pessoas obtiveram acesso ao poderoso texto AI GPT-3 da OpenAI, um tremendo impulso na criação de aplicativos se desenvolveu – e um certo mistério: que conhecimento, que habilidades poderiam ser escondidas nessas 96 camadas e 175 bilhões de parâmetros? Poderia haver algo mais oculto nas profundezas do modelo do que a simples conclusão de frases? Uma compreensão mais profunda do mundo, talvez a chave para o bom senso de uma máquina e, portanto, para uma IA semelhante à humana?
GPT-3 foi a centelha inicial para a disseminação de grandes modelos de linguagem
A introdução do GPT-3 forneceu o ímpeto para o desenvolvimento de modelos de linguagem mais avançados. Desde então, inúmeros outros modelos surgiram, alguns ainda maiores e mais potentes, oferecendo vantagens em um número cada vez maior de cenários de aplicação, alguns dos quais vão além da geração direta de texto.
Por exemplo, a compreensão da linguagem de grandes modelos de linguagem é fundamental para a revolução gráfica atualmente em curso com DALL-E , Difusão estável e afins, ou ajuda no desenvolvimento de robôs que podem ser usados no dia a dia .
Da perspectiva de hoje, os modelos de linguagem ainda não deram uma contribuição clara no caminho para a IA semelhante à humana. Eles produzem texto inteligível, com tanta credibilidade que o antigo O desenvolvedor do Google, Blake Lemoine, afirmou que um chatbot do Google tinha uma consciência . Mas eles não entendem.
Condenado à superficialidade
Em um ensaio conjunto com o pesquisador de IA Jake Browning, o chefe de IA da Meta, Yann LeCun, descreve por que ele acredita que grandes modelos de linguagem de IA não podem liderar o caminho para uma IA semelhante à humana.
Os dois cientistas argumentam que a linguagem contém apenas uma pequena porção do conhecimento humano. Muito desse conhecimento, e da mesma forma o conhecimento dos animais, não existe em forma verbal nem simbólica, dizem eles. Consequentemente, grandes modelos de linguagem não poderiam chegar perto da inteligência humana, “mesmo se treinados a partir de agora até a morte térmica do universo”.
A limitação, portanto, não é a inteligência artificial, mas “a natureza limitada da linguagem”, escrevem os pesquisadores. Os sistemas de linguagem de IA de hoje são impressionantes, mas “condenados a uma compreensão superficial que nunca se aproximará do pensamento encorpado que vemos nos humanos”.
O treinamento de dados de linguagem é usado pela IA para adquirir uma pequena porção do conhecimento humano por meio de um pequeno gargalo, de acordo com os pesquisadores. Os modelos de linguagem, portanto, assemelham-se a um espelho que dá a ilusão de profundidade ao refletir tudo, mas, na realidade, tem apenas alguns centímetros de espessura. “Se tentarmos explorar suas profundezas, batemos com a cabeça”, escrevem os pesquisadores.
IA não é o problema – é a linguagem
Qualquer forma de linguagem, dizem eles, é apenas um tipo de representação de conhecimento muito comprimido e “altamente específico e profundamente limitado”. No entanto, a compreensão humana da linguagem muitas vezes depende de uma compreensão mais profunda do contexto em que uma frase ou parágrafo é colocado.
A compreensão é influenciada, por exemplo, por uma percepção compartilhada de situações ou pelo conhecimento sobre papéis sociais. A pesquisa sobre a compreensão de texto infantil mostrou que o conhecimento de fundo sobre o texto desempenha um papel crucial na compreensão, dizem os pesquisadores.
“Abandonar a visão de que todo conhecimento é linguístico nos permite perceber quanto de nosso conhecimento é não linguístico”, escrevem os pesquisadores, citando como exemplo um manual de instruções da IKEA que mostra apenas ilustrações e dispensa instruções textuais.
Na busca pelo senso comum da máquina, os pesquisadores teriam, portanto, de pensar em sistemas que focassem no próprio mundo – e não nas palavras usadas para descrevê-lo.
LeCun propôs no início de março um Arquitetura de IA composta por vários módulos modelados após o cérebro humano . No centro dessa arquitetura está o módulo de modelo mundial, projetado para aprender representações abstratas do mundo e ignorar detalhes sem importância para fazer previsões sobre o mundo – assim como os humanos fazem constantemente.