OpenAI descobre neurônio AI anteriormente conhecido apenas por humanos

Pesquisadores de IA da OpenAI mostram que sua mais recente IA de reconhecimento de imagem possui neurônios multimodais que representam conceitos abstratos. Esses neurônios especiais eram conhecidos anteriormente apenas no cérebro humano.

No início de janeiro, a OpenAI lançou o DALL-E, uma IA de imagem impressionante que gera imagens ou desenhos fotorrealistas a partir de uma descrição de texto. Seus resultados mostram o quão poderosa é a combinação de dados de texto e imagem para treinar sistemas de IA.

No entanto, o DALL-E também gera imagens que realmente não correspondem à descrição do texto fornecida. Portanto, o OpenAI conta com o AI CLIP de reconhecimento de imagem, que também é treinado com dados de texto e imagem, para reordenar os resultados produzidos pelo DALL-E.

Os testes mostraram que o CLIP generaliza melhor do que outros sistemas de reconhecimento de imagem, mas tem desempenho pior do que sistemas especificamente treinados em algumas tarefas de imagem.

Os pesquisadores de IA da OpenAI agora investigaram essa capacidade de generalizar com mais detalhes, observando o funcionamento interno da rede neural.

Uma seleção dos neurônios emocionais que os pesquisadores da OpenAI descobriram na imagem AI DALL-E. | Imagem: OpenAI

A cela da avó

Em 2005, dois estudos demonstraram que os humanos possuem neurônios únicos que correspondem à percepção de indivíduos específicos. Em um estudo, um neurônio em uma cobaia respondeu à atriz Halle Berry. O neurônio disparou contra fotos, desenhos e o nome dela. Nesse mesmo ano, outro estudo mostrou o mesmo fenômeno com a atriz Jennifer Aniston.

Alguns pesquisadores viram nisso uma evidência da existência do chamado neurônio da avó, um neurônio que se torna ativo ao perceber um objeto ou pessoa específica, como a avó. O célula da avó foi postulado na década de 1960 pelo cientista cognitivo Jerome Lettvin.

A importância dos estudos de 2005 permanece controversa, e o conceito de neurônio avó é considerado ultrapassado. No entanto, a pesquisa sugere que o cérebro humano possui neurônios multimodais que respondem a conceitos abstratos, como uma pessoa, não apenas a um recurso visual específico. É por isso que o termo “neurônio conceitual” agora é usado com frequência.

O que isso tem a ver com OpenAI e CLIP? Em um estudo, pesquisadores de IA mostraram que a rede neural do CLIP também possui neurônios multimodais.

Homem-Aranha, Homem-Aranha

Os pesquisadores usaram o Microscope, o software de análise lançado pela OpenAI em abril de 2020, para examinar a IA. O AI Microscope visualiza a que neurônios individuais na rede estão respondendo, fornecendo informações sobre sistemas complicados. Por exemplo, pode ser usado para entender quais recursos uma IA de reconhecimento de imagem usa para reconhecer um carro.

Usando o microscópio, os pesquisadores foram capazes de mostrar que os neurônios individuais no CLIP respondem a várias modalidades. Em seu artigo, os pesquisadores demonstram isso usando o neurônio do homem aranhapor exemplo: o neurônio artificial responde a fotos de aranhas, uma imagem da palavra “aranha” ou fotos ou desenhos do Homem-Aranha.

CLIP representa milhares de conceitos abstratos

Os pesquisadores encontraram inúmeros conceitos abstratos que abrangem uma grande parte do “léxico visual humano”. No CLIP, há neurônios para regiões geográficas, expressões faciais, religiões, pessoas famosas, emoções, cores, estilos de arte, férias e feriados, universos de ficção científica como Star Wars, empresas ou horas do dia.

1678881608 981 OpenAI descobre neuronio AI anteriormente conhecido apenas por humanos

Os neurônios também disparam para estímulos relacionados, escrevem os pesquisadores. Assim, o neurônio de Barack Obama também dispara para Michelle Obama ou o neurônio da manhã para imagens do café da manhã.

O Jesus O neurônio responde a símbolos cristãos como cruzes ou coroas de espinhos, imagens de Jesus, seu nome e imagens geradas pelo microscópio mostrando-o como um bebê nos braços de Maria.

Jesus, Kreuze und der Text Jesus

O neurônio Donald Trump responde a fotos, figuras e caricaturas do ex-presidente, seus símbolos políticos, como os bonés do MAGA, e mensagens políticas, como as palavras “The Wall”. Também reage fracamente a pessoas que trabalharam de perto com Trump, como Mike Pence ou Steve Bannon.

Os neurônios emocionais respondem a expressões faciais, linguagem corporal, desenhos e texto. Por exemplo, o neurônio da felicidade responde a sorrisos ou palavras como “alegria”. O surpresa neurônio reage a olhos arregalados e texto como “OMG!” ou “WTF!?

Generierte Bilder von emocional Gesichtern, die CLIPs Emotionsneuronen anregen

Os neurônios da região respondem a nomes de países e cidades, arquitetura específica, pessoas proeminentes na região, rostos de etnias comuns, moda local ou animais que vivem lá. Quando os neurônios veem um mapa do mundo sem rótulos, eles disparam seletivamente para a região correspondente no mapa.

Testes anteriores mostraram que o CLIP pode corresponder parcialmente as fotos a bairros específicos em uma cidade selecionada, como San Francisco. Os pesquisadores não encontraram um neurônio San Francisco correspondente – eles acreditam que a informação está codificada em muitos outros neurônios e planejam explorar esse mecanismo ainda mais no futuro.

Neurônios da região secundária, preconceitos e decepção

O CLIP passa a formar neurônios que são “regiões secundárias”, escrevem os pesquisadores. Por exemplo, o neurônio frio dispara para o Ártico. Os neurônios regionais secundários também mostram que o CLIP representa vários vieses: o neurônio da imigração responde principalmente à América Latina e o neurônio do terror responde ao Oriente Médio. O CLIP divide o continente africano em apenas três regiões. O neurônio empreendedor dispara para a Califórnia. O GPT-3 da OpenAI também mostra fraquezas de viés semelhantes.

Ein Apfel ohne und ein Apfel mit einem handgeschriebenen Zettel mit dem Wort

Os pesquisadores de IA também conseguiram mostrar que o alto nível de abstração torna o CLIP fácil de atacar: a presença de vários cifrões na imagem de um poodle ativa o neurônio financeiro e o CLIP reconhece o cachorro como um cofrinho.

Uma maçã com uma nota manuscrita dizendo “iPod” na foto é reconhecida como um iPod, e um cachorro se torna uma pizza por causa da palavra “pizza” na foto.

De acordo com a OpenAI, o vulnerabilidade a “ataques tipográficos” é uma peculiaridade do CLIP, desencadeada por treinamento multimodal com dados de texto e imagem.

OpenAI retém o CLIP por enquanto

Toda a pesquisa foi realizada no modelo RN50x4, o segundo menor modelo CLIP baseado em ResNet que a OpenAI está lançando para fins de pesquisa para desenvolver ainda mais a compreensão do CLIP e ajudar a decidir se e como lançar uma versão mais poderosa do CLIP, de acordo com o postagem de blog relacionada.

A OpenAI espera que o lançamento também ajude a “avançar a compreensão geral dos sistemas multimodais”. Além dos neurônios computacionais, a descoberta de neurônios multimodais no CLIP pode fornecer uma pista para o que pode ser um mecanismo comum em sistemas de visão sintética e biológica: a abstração.

O CLIP organiza as imagens como uma coleção semântica de ideias. Isso explica a versatilidade do modelo e a compacidade das representações. Muitas das categorias encontradas parecem espelhar neurônios no lobo temporal medial que foram documentados em pacientes com epilepsia com eletrodos de profundidade, escrevem os pesquisadores: neurônios que respondem a emoções, animaise Halle Berry.