Sumário
Deepmind mostra um sistema de IA que aprende física intuitiva. A equipe foi inspirada por insights da psicologia do desenvolvimento.
A inteligência artificial quebrou vários benchmarks e conquistou domínios da inteligência humana recentemente, graças aos avanços em hardware, arquiteturas de rede e métodos. No entanto, apesar de sucessos como AlphaGo, AlphaFold, GPT-3 e DALL-E 2 ainda falta o que costumamos chamar de senso comum.
Há uma discussão animada na comunidade de pesquisa de IA sobre possíveis caminhos para esses recursos, por exemplo, recentemente particularmente proeminente no Twitter entre o chefe de IA da Meta, Yann LeCun, e Gary Marcus.
Uma equipe da Deepmind agora está voltando sua atenção para um aspecto particular desse debate, a física intuitiva, em uma nova pesquisa. Na psicologia do desenvolvimento, a física intuitiva geralmente se refere à rede de conceitos subjacentes ao nosso pensamento sobre as propriedades e interações de objetos macroscópicos.
Essa compreensão física é fundamental para a inteligência incorporada, pois é fundamental para todas as ações no ambiente. Também forma a base para o conhecimento conceitual e representações composicionais em geral.
O PLATO da Deepmind e a violação do paradigma da expectativa
Em seu novo trabalho, a equipe se baseia nos principais insights e métodos da psicologia do desenvolvimento na física intuitiva: por exemplo, a física é compreendida no nível de objetos discretos e suas interações, escrevem os pesquisadores em seu artigo.
Estes permitem a formação de cinco conceitos:
- continuidade de objetos,
- permanência do objeto,
- solidez,
- imutabilidade,
- e inércia nas mudanças de direção.
Se esses conceitos estiverem presentes, um ser vivo formou uma compreensão intuitiva da física. Na psicologia do desenvolvimento, esses conceitos são estudados usando o que é conhecido como paradigma da violação da expectativa (VoE).
O paradigma afirma que uma pessoa que possui um dos conceitos listados acima tem um conjunto de expectativas sobre o comportamento dos objetos. Por exemplo, o conceito de permanência do objeto afirma que os objetos não deixam de existir quando desaparecem de vista.
Em experimentos com bebês ou crianças pequenas, por exemplo, essas expectativas são quebradas em vídeos para determinar se as crianças ficam surpresas. Por exemplo, se uma criança olha por mais tempo para um objeto depois de quebrar as leis da física, isso é uma indicação de violação de expectativa e, portanto, de um conceito existente de física intuitiva.
Os pesquisadores da Deepmind treinaram o PLATO (Physics Learning through Auto-encoding and Tracking Objects), um sistema de aprendizado profundo que prevê o comportamento de objetos físicos simples em vídeos. Deepmind então o testou com o paradigma de violação de expectativa nos cinco conceitos mencionados anteriormente.
Deepmind gera 300.000 videoclipes de objetos físicos
Para treinar PLATO, Deepmind criou o conjunto de dados de conceitos físicos que consiste em 300.000 vídeos curtos de objetos 3D simples e animados, como uma bola rolando atrás de um obstáculo e reaparecendo do outro lado.
PLATO consiste em dois componentes: um módulo de percepção que converte imagens individuais em uma série de códigos de objeto, e um preditor de dinâmica que prevê imagens futuras usando os códigos de objeto do módulo de percepção.
Os códigos de objeto aqui correspondem às representações de objetos discretos conhecidos da psicologia do desenvolvimento, que servem como base da física intuitiva.
Assim equipado, o PLATO poderia aprender física intuitiva e pelo menos alguns dos cinco conceitos, supôs a equipe. Após o treinamento, os pesquisadores testaram o PLATO com diferentes vídeos VoE, ou seja, pequenos clipes que verificam certos conceitos, como quando um objeto se teletransporta no campo de visão.
PLATO é baseado em objetos físicos
Cada vídeo que mostrava uma violação dos princípios físicos era comparado com um vídeo correspondente fisicamente correto. Isso permitiu que os pesquisadores comparassem as previsões. A equipe também treinou variantes de um segundo modelo de IA independente de objetos que também prevê imagens futuras dos vídeos, mas não usa códigos de objetos.
Nos testes, PLATO mostrou efeitos VoE significativos em todas as cinco amostras de conceito – as conclusões de IA foram fortemente inclinadas para conceitos físicos e, portanto, não corresponderam à progressão do vídeo nos casos de VoE. Em contraste, os modelos alternativos agnósticos de objetos sem códigos de objetos não produziram resultados além do acaso.
Em outro experimento, a equipe também mostrou que resultados semelhantes já podem ser alcançados treinando modelos com apenas 50.000 vídeos – o equivalente a 28 horas de dados visuais. Uma possível indicação de que o cérebro humano também pode aprender tais conceitos com observação visual.
O principal autor, Luis Piloto, enfatiza, no entanto, que o PLATO não foi concebido como um modelo para o comportamento infantil. Poderia, no entanto, ser um primeiro passo para um sistema de IA que poderia testar hipóteses sobre como os bebês humanos aprendem.