Sumário
Os benchmarks são fundamentais para o progresso na pesquisa de IA. Com um novo teste, a Deepmind quer tornar mensuráveis as capacidades de percepção da inteligência artificial.
Os benchmarks desempenham um papel central na pesquisa de IA: eles permitem que os pesquisadores definam seus objetivos de pesquisa e meçam seu progresso em direção a esses objetivos. Benchmarks influentes, como o ImageNet ou mesmo o Teste de Turing, moldam a pesquisa de IA, em vez de apenas medi-la.
Grandes avanços como o AlexNet, um modelo de aprendizado profundo que superou significativamente outras abordagens de IA no benchmark ImageNet pela primeira vez, foram possíveis por seus respectivos benchmarks e conjuntos de dados associados.
Os sistemas multimodais de IA estão em ascensão – e precisam de um novo benchmark
Atualmente, os modelos de IA são testados em relação a uma série de benchmarks especializados, como reconhecimento de ações em vídeos, classificação de áudio, rastreamento de objetos ou resposta a perguntas sobre imagens. Esses benchmarks influenciam diretamente as arquiteturas de modelo e os métodos de treinamento e, portanto, estão diretamente envolvidos em muitos avanços da IA.
No entanto, enquanto o AlexNet era um modelo de IA treinado supervisionado para reconhecimento de objetos de categorias fixas do ImageNet, os modelos de IA multimodais especializados em percepção agora são treinados de forma mais geral e auto-supervisionada com grandes quantidades de dados. Modelos como Perceiver, Flamingo ou BEiT-3 geralmente tentam perceber várias modalidades simultaneamente enquanto dominam diversas tarefas de percepção.
Esses modelos multimodais estão atualmente sendo testados com vários conjuntos de dados especializados de diferentes benchmarks – um processo lento e caro que não cobre totalmente todas as capacidades de percepção dos novos modelos.
Com apenas benchmarks especializados disponíveis, falta um fator-chave para o progresso dos modelos multimodais de IA: um benchmark com um conjunto de dados correspondente que testa as capacidades gerais de percepção.
O “Teste de Percepção” da Deepmind se tornará a referência central para modelos de percepção
Os pesquisadores da Deepmind desenvolveram, portanto, o “Teste de Percepção”, um conjunto de dados e benchmark de 11.609 vídeos rotulados compreendendo seis tarefas diferentes:
- Rastreamento de objetos: uma caixa é fornecida em torno de um objeto no início do vídeo, o modelo deve retornar uma trilha completa ao longo de todo o vídeo (inclusive por meio de oclusões).
- Rastreamento de pontos: um ponto é selecionado no início do vídeo, o modelo deve rastrear o ponto ao longo do vídeo (também por meio de oclusões).
- Localização da ação temporal: o modelo deve localizar e classificar temporariamente um conjunto predefinido de ações.
- Localização sonora temporal: o modelo deve localizar e classificar temporariamente um conjunto predefinido de sons.
- Resposta a perguntas em vídeo de múltipla escolha: perguntas textuais sobre o vídeo, cada uma com três opções para selecionar a resposta.
- Resposta a perguntas em vídeo fundamentadas: questões textuais sobre o vídeo, o modelo precisa retornar uma ou mais trilhas de objetos.
Os pesquisadores citam testes de psicologia do desenvolvimento, bem como conjuntos de dados sintéticos como CATER e CLEVRER, como inspiração. Os vídeos do novo benchmark mostram jogos simples ou atividades cotidianas nas quais os modelos de IA devem resolver suas tarefas. Para evitar preconceito oculto, os vídeos foram gravados por participantes voluntários de diferentes países, etnias e gêneros.
Segundo a Deepmind, os modelos precisam de quatro habilidades para passar no teste:
- Conhecimento de semântica: testar aspectos como conclusão de tarefas, reconhecimento de objetos, ações ou sons.
- Compreensão da física: colisões, movimento, oclusões, relações espaciais.
- Raciocínio temporal ou memória: ordenação temporal de eventos, contagem ao longo do tempo, detecção de mudanças em uma cena.
- Habilidades de abstração: correspondência de formas, noções iguais/diferentes, detecção de padrões.
Deepmind executa seu próprio servidor de teste para comparações
A empresa assume que os modelos de IA participantes do benchmark já serão treinados com tarefas e conjuntos de dados externos. O Teste de Percepção, portanto, inclui um pequeno conjunto de ajuste fino de cerca de 20% dos vídeos disponíveis.
Os 80% restantes dos vídeos são divididos em uma parte publicamente disponível para benchmarking, bem como uma parte retida onde o desempenho só pode ser avaliado por meio do próprio servidor de avaliação do Deepmind.
Os resultados dos modelos são exibidos em gráficos de radar e em diferentes dimensões para mostrar mais claramente os pontos fortes e fracos dos modelos. Um modelo ideal teria uma pontuação alta em todas as superfícies de radar e em todas as dimensões.
A Deepmind espera que o Teste de Percepção inspire e oriente pesquisas adicionais sobre modelos de percepção geral. No futuro, a equipe planeja trabalhar com a comunidade de pesquisa para melhorar ainda mais o benchmark.
O benchmark do Teste de Percepção está disponível publicamente em GithubGenericName e mais detalhes podem ser encontrados no Trabalho “Teste de Percepção” . Uma tabela de classificação e um servidor de desafio também devem estar disponíveis em breve.