Google treina o maior Vision Transformer até o momento

O ViT-22B do Google é o maior Vision Transformer até hoje, com 22 bilhões de parâmetros. O Google diz que está melhor alinhado aos humanos do que outros modelos.

No outono de 2020, o Google revelou o Vision Transformer (ViT), uma arquitetura de IA que pega os modelos Transformer que têm sido tão influentes no processamento de linguagem e os torna úteis para tarefas de imagem, como reconhecimento de objetos.

Em vez de palavras, o Vision Transformer processa pequenas porções de imagens. Na época, o Google treinou três modelos ViT em 300 milhões de imagens: ViT-Base com 86 milhões de parâmetros, ViT-Large com 307 milhões de parâmetros e ViT-Huge com 632 milhões de parâmetros. Em junho de 2021, um modelo do Google ViT quebrou o recorde anterior no benchmark ImageNet. O ViT-G/14 tem pouco menos de dois bilhões de parâmetros e foi treinado em três bilhões de imagens.

Google mostra modelo ViT de 22 bilhões de parâmetros

Em um novo artigo, o Google apresenta um modelo ViT em escala ainda maior. Com 22 bilhões de parâmetros, o ViT-22B tem dez vezes o tamanho do ViT-G/14 e foi treinado em 1.024 chips TPU-v4 com quatro bilhões de imagens.

Durante o dimensionamento, a equipe encontrou alguns problemas de estabilidade de treinamento, que conseguiram resolver fazendo melhorias, como organizar as camadas do transformador em paralelo. Isso também permitiu um uso muito mais eficiente do hardware.

Em alguns benchmarks, o ViT-22B atinge SOTA, em outros ele joga na liga principal – sem especialização. A equipe testou o ViT-22B na classificação de imagens, segmentação semântica, estimativa de profundidade e classificação de vídeo. Além disso, o Google verificou a capacidade de classificação do modelo com imagens geradas por IA que não faziam parte dos dados de treinamento.

O ViT-22B chega mais perto dos humanos do que qualquer modelo de IA anterior

O Google mostra que o ViT-22B é um bom professor para modelos de IA menores: em uma configuração professor-aluno, um modelo ViT-Base aprende com o ViT-22B maior e, subsequentemente, obtém 88,6% no benchmark ImageNet, um novo SOTA alto para este tamanho do modelo.

A equipe do Google também está investigando o alinhamento humano do ViT-22B. Há anos se sabe que os modelos de IA colocam muita ênfase na textura dos objetos ao classificá-los, em comparação com os humanos. Este é um fato do qual muitos ataques adversários se aproveitam.

Testes mostraram que os humanos prestam atenção quase exclusivamente à forma e quase nenhuma atenção à textura ao classificar objetos. Em termos de valores, isso é de 96% a 4%.

O ViT-22B do Google alcança um novo SOTA aqui, com a equipe mostrando que o modelo tem um viés de forma de 87% e um viés de textura de 13%. O modelo também é mais robusto e justo, segundo o jornal.

O Google diz que o ViT-22B mostra o potencial para dimensionamento “semelhante ao LLM” no processamento de imagens. Com escala adicional, tais modelos também podem exibir capacidades emergentes que superam algumas das limitações atuais dos modelos de ViT.