Estamos ficando sem benchmarks de IA?

Os benchmarks são uma maneira importante de medir o progresso na pesquisa de IA – mas a inteligência artificial está constantemente alcançando novos recordes. Estamos ficando sem benchmarks de IA?

Inteligência artificial os benchmarks estão intimamente ligados à pesquisa de IA: eles criam mensurabilidade e comparabilidade e, muitas vezes, até se tornam um objetivo de pesquisa. Os benchmarks de IA, portanto, orientam – pelo menos em parte – o progresso da IA.

Os sucessos das redes neurais artificiais no Benchmark ImageNet, por exemplo, são considerados os responsáveis ​​pelo boom da IA ​​nos últimos anos: os resultados demonstraram o potencial da tecnologia e levaram a um aumento do investimento em novas pesquisas. Eles são, portanto, um elemento-chave para o desenvolvimento da IA.

O que fazer quando ficamos sem benchmarks?

Hoje, o benchmark ImageNet ainda desempenha um papel central na pesquisa: novos modelos, como o Vision Transformer do Google, que contam com arquiteturas Transformer e aprendizado auto-supervisionado para análise de imagem, são comparados com métodos ImageNet.

Essa dependência de benchmarks para determinar o progresso torna-se um problema quando há pontuações consistentemente altas em um benchmark e não há um benchmark sucessor de alta qualidade.

Um exemplo do ritmo acelerado da pesquisa de IA veio do Google e da Microsoft no início de 2021: pesquisadores da Deepmind e do Facebook, entre outros, revelaram o benchmark de linguagem SuperGLUE em agosto de 2019 para substituir o já desatualizado benchmark GLUE.

Menos de um ano depois, os sistemas de IA do Google e da Microsoft alcançaram pontuações máximas que ultrapassaram até os benchmarks humanos. O benchmark SuperGLUE tornou-se assim obsoleto.

33% dos benchmarks de IA não estão sendo usados

Pesquisadores da Universidade Médica de Viena e da Universidade de Oxford agora mostram em um meta-estudo de benchmarks de IA que benchmarks saturados ou estagnados são comuns. Os pesquisadores examinaram 1.688 benchmarks com 406 tarefas em visão computacional e processamento de linguagem natural desde 2013 e chegaram às seguintes conclusões:

  • Em alguns casos, haveria crescimento contínuo, como no benchmark ImageNet.
  • No entanto, a maioria de todos os benchmarks atingem rapidamente a estagnação ou saturação tecnológica.
  • Em alguns casos, a falta de interesse na pesquisa também é causa de estagnação. Os pesquisadores citam o benchmark de reconhecimento de ação UCF101 como um exemplo de saturação.
  • No entanto, a dinâmica de melhoria do desempenho não segue um padrão claramente discernível: em alguns casos, fases de estagnação são seguidas de saltos imprevisíveis. Foi o que aconteceu no benchmark PROTEÍNAS.

Além disso, dos 1.688 benchmarks, apenas 66% têm mais de três resultados em diferentes pontos no tempo – portanto, na prática, 33% de todos os benchmarks de IA não são usados ​​e, portanto, inúteis. Isso aponta para a tendência nos últimos anos de que os benchmarks tendem a ser dominados por conjuntos de dados de instituições e empresas estabelecidas, dizem os pesquisadores.

Qualidade acima da quantidade para benchmarks de IA

Enquanto sucessos de referência para visão computacional dominaram a primeira metade da última década, a segunda metade viu um boom no processamento de máquinas de linguagem natural, de acordo com os pesquisadores.

Em 2020, o número de novos benchmarks diminuiu e os novos testes focaram cada vez mais em tarefas com maior nível de dificuldade, por exemplo, aquelas que testam o raciocínio. Exemplos de tais benchmarks são o BIG-bench do Google e o NetHack Challenge da FAIR.

Por um lado, a tendência para benchmarks de instituições estabelecidas, incluindo a indústria, levanta preocupações sobre o viés e a representatividade dos benchmarks. Por outro lado, a crítica à validade de muitos benchmarks para capturar o desempenho de sistemas de IA em condições do mundo real sugere que o desenvolvimento de menos benchmarks, mas com garantia de qualidade, abrangendo vários recursos de IA pode ser desejável.

No futuro, novos benchmarks devem ser desenvolvidos por grandes equipes colaborativas de muitas instituições, domínios de conhecimento e culturas para garantir benchmarks de alta qualidade e evitar a fragmentação do cenário de benchmark, concluem os pesquisadores.

Leia mais sobre Inteligência Artificial:

  • Microsoft Translator: melhores traduções com a nova tecnologia AI
  • Cão-robô quebra recorde de velocidade – alta velocidade graças à IA
  • Teste deepfake: você pode detectar falsificações de IA?