A nova análise de imagem AI do Google é bastante LiT – e supera o OpenAI

O Google demonstra uma impressionante análise de imagem de inteligência artificial: o modelo LiT treinado multimodal supera o CLIP da OpenAI.

A combinação de imagens e descrições de texto, geralmente retiradas em massa da Internet, provou ser um recurso poderoso para inteligência artificial Treinamento.

Em vez de depender de bancos de dados de imagens criados manualmente, como o ImageNet, onde as pessoas pesquisam várias imagens para cada categoria, como cachorro, gato ou mesa, os modelos de análise de imagem mais recentes contam com massas comparativamente não estruturadas de imagens e texto. Eles aprendem multimodalmente e automonitorados. Um exemplo particularmente proeminente é o CLIP da OpenAI, que é usado, por exemplo, no novo DALL-E 2.

Esses modelos de IA treinados e autossupervisionados têm uma grande vantagem: eles aprendem representações muito mais robustas de categorias visuais, pois não precisam confiar nas categorizações identificadas manualmente por humanos.

Assim, eles podem ser facilmente usados ​​para inúmeras tarefas de análise de imagem sem treinamento adicional de IA. Por outro lado, os modelos treinados com o ImageNet geralmente exigem um ajuste fino com conjuntos de dados adicionais para cada nova tarefa.

O Google combina compreensão de imagem e linguagem

No entanto, os modelos multimodais ainda têm dois problemas: há significativamente mais imagens sem descrições de texto do que com – os pesquisadores devem, portanto, abrir mão de grandes quantidades de dados potencialmente úteis no treinamento.

Na prática, isso leva ao segundo problema: embora os modelos multimodais sejam mais robustos, eles não alcançam a precisão dos modelos tradicionais treinados apenas com dados de imagem no benchmark ImageNet, por exemplo.

Pesquisadores do Google agora estão apresentando um método chamado “Ajuste de imagem bloqueada” (LiT) que podem transformar retroativamente modelos de análise de imagens tão grandes em modelos multimodais.

Este método visa combinar o melhor dos dois mundos: um modelo multimodal com recursos robustos de análise de imagem que não precisa ser treinado novamente para novas tarefas, mas ainda se aproxima da precisão de modelos especializados.

O LiT do Google treina apenas o codificador de texto

Durante o treinamento multimodal, um codificador de imagem e um codificador de texto aprendem representações para imagens e texto, respectivamente. Cada representação de imagem deve ser próxima da representação do texto correspondente, mas diferente da representação de outros textos nos dados e vice-versa.

No processo de treinamento, os codificadores devem, portanto, aprender simultaneamente as representações e seu mapeamento para as do segundo codificador.

O Google está buscando uma abordagem diferente com o LiT: Um modelo pré-treinado com três bilhões de imagens serve como codificador de imagem, cujos parâmetros são posteriormente congelados em treinamento multimodal. Desta forma, o codificador de imagem e suas representações aprendidas não são alterados.

Vídeo: Google

O codificador de texto então aprende durante o treinamento para adaptar suas representações de texto aprendidas àquelas do codificador de imagem. Os dados de treinamento para esta etapa incluem um conjunto de dados privado de quatro bilhões de imagens com texto associado que a equipe coletou.

Qualquer modelo de imagem pré-treinado pode ser usado como um codificador de imagem. O Google alcança a mais alta precisão com seu Vision Transformer desenvolvido internamente.

O LiT do Google supera o CLIP do OpenAI

O modelo treinado com LiT atinge 84,5% de precisão no benchmark ImageNet e 81,1% de precisão no benchmark ObjectNet mais sofisticado sem treinamento adicional do ImageNet.

O melhor valor atual no ImageNet é 90,94 por cento; O CLIP alcançou 76,2 por cento. No benchmark ObjectNet, a versão mais forte do CLIP alcançou 72,3 por cento de precisão.

Vídeo: Google

O modelo do Google supera o CLIP da OpenAI em todos os benchmarks graças ao codificador de imagem pré-treinado. Os pesquisadores também mostram que o LiT ainda funciona bem mesmo com conjuntos de dados disponíveis publicamente – embora a precisão caia para 75,7% para o ImageNet.

Eles também dizem que o método permite resultados muito mais robustos, mesmo com menos dados. Por exemplo, os modelos LiT treinados com 24 milhões de pares imagem-texto disponíveis publicamente alcançam o mesmo desempenho que os modelos anteriores treinados com 400 milhões de pares imagem-texto de dados privados.

O Google fornece um demonstração interativa do LiT onde você pode experimentar os recursos do modelo LiT baseado em um transformador de visão.