A mais recente IA da Deepmind tem melhor compreensão visual

O Flamingo da Deepmind combina um modelo visual de IA com um modelo de linguagem. O objetivo é que a inteligência artificial obtenha uma melhor compreensão visual.

Grandes modelos de linguagem como o GPT-3 da OpenAI são aprendizes de poucos tiros: eles aprendem a executar uma tarefa com base em alguns exemplos. Se o GPT-3 for traduzir alemão para inglês, por exemplo, o modelo pode ser configurado de acordo com duas ou três traduções de exemplo.

Esse aprendizado rápido funciona porque o GPT-3 foi pré-treinado com inúmeros dados. O treinamento de poucos tiros com alguns exemplos é simplesmente uma forma de ajuste fino.

A Deepmind está agora demonstrando o Flamingo, um sistema de IA que combina um modelo de linguagem e um modelo visual e realiza análise de imagem usando aprendizado de poucos disparos.

Deepmind Flamingo depende de Chinchilla e Perceiver

Em vez de exemplos apenas de texto, o modelo de linguagem visual do Flamingo processa pares imagem-texto, como perguntas e respostas esperadas para uma imagem. O modelo pode então responder a perguntas sobre novas imagens ou vídeos.

Como exemplo, a Deepmind cita a identificação e contagem de animais, como três zebras em uma imagem. Um modelo visual tradicional que não está acoplado a um modelo de linguagem teria que ser treinado novamente com milhares de imagens de exemplo para realizar essa tarefa. O Flamingo, por outro lado, requer apenas algumas imagens de exemplo com saída de texto correspondente.

O Flamingo conecta um codificador ResNet treinado com imagens e texto a uma variante de Modelo de linguagem chinchila da Deepmind . A conexão é habilitada pelo Perceiver do Deepmind, que processa a saída do modelo visual e o passa para a camada de atenção antes do modelo de linguagem.

Durante o treinamento do Flamingo, o modelo visual pré-treinado e o modelo de linguagem são congelados para preservar suas habilidades. Apenas as camadas perceptivas e atencionais são treinadas.

Flamingo mostra compreensão básica de imagem

Em 16 benchmarks de compreensão de imagem testados, o Flamingo supera outras abordagens de poucos disparos. Nesses testes, o Flamingo precisa reconhecer discurso de ódio em memes, identificar e descrever objetos ou nomear eventos em um vídeo, por exemplo. Com apenas 32 exemplos e nenhum ajuste de pesos nos modelos, o Flamingo também supera as melhores práticas atuais em sete tarefas que foram ajustadas com milhares de exemplos anotados.

O Flamingo também pode manter conversas mais ou menos significativas e processar informações de imagens e textos. No diálogo com um humano, por exemplo, o modelo pode se corrigir de forma independente quando solicitado a fazê-lo, apontando um possível erro.

Vídeo: Deepmind

Segundo os pesquisadores, os resultados representam um passo importante para uma compreensão visual geral da inteligência artificial. Por mais distante que seja esse caminho, é provável que a vinculação de grandes modelos de IA para tarefas multimodais desempenhe um papel essencial.