Meta mostra algoritmo de aprendizado extremamente rápido para fala, imagem e texto

A Meta lançou uma nova versão do data2vec: data2vec 2.0.

Atualização de 29 de dezembro de 2022:

O algoritmo de aprendizado atualizado do Meta para diferentes modalidades é significativamente mais rápido que seu antecessor.

Quase onze meses após o lançamento do data2vec, a divisão de AI da Meta está exibindo uma versão aprimorada de seu algoritmo de aprendizado multimodal. Com o data2vec, é muito mais fácil transferir avanços em uma área de pesquisa de IA, como compreensão de texto, para outras áreas, como segmentação ou tradução de imagens, diz Meta. Como seu antecessor, o data2vec 2.0 pode processar fala, imagens e texto, mas aprende muito mais rápido.

O Data2vec 2.0 é muito mais eficiente e supera o forte desempenho da primeira versão, disse a empresa. Ele atinge quase a mesma precisão que um algoritmo de visão computacional amplamente utilizado, mas é 16 vezes mais rápido.

Data2vec 2.0 aprende representações contextualizadas

Semelhante ao seu antecessor, o data2vec 2.0 prevê representações contextualizadas de dados em vez de apenas os Pixels em uma imagem, palavras em uma passagem de texto ou o som em um arquivo de voz.

Especificamente, o algoritmo aprende a palavra banco, por exemplo, com base na frase completa em que essa palavra ocorre e, assim, aprende a representar o significado correto da palavra mais rapidamente – ou seja, como uma instituição financeira.

Meta suspeita que essa contextualização seja responsável pelo desempenho de aprendizado rápido do algoritmo. Para aumentar a eficiência, a equipe também conta com redes de alunos aprendendo com uma rede de professores e uma CNN, em vez de um decodificador de transformador.

A Meta espera que algoritmos mais eficientes como o data2vec 2.0 levem a máquinas capazes de entender dados extremamente complexos, como o conteúdo de um filme inteiro.

Exemplos e códigos estão disponíveis em GithubGenericName .

Artigo original de 22 de janeiro de 2022:

Meta apresenta um algoritmo de aprendizagem que permite a aprendizagem auto-supervisionada para diferentes modalidades e tarefas.

A maioria dos sistemas de IA ainda aprende supervisionada com dados rotulados. Mas os sucessos da aprendizagem auto-supervisionada em modelos de linguagem de larga escala, como GPT-3 e, mais recentemente, sistemas de análise de imagem, como SEER da Meta ou Vision Transformer do Google, mostram claramente que IAs que aprendem autonomamente as estruturas de linguagens ou imagens são mais flexível e poderoso.

No entanto, até agora, os pesquisadores ainda precisam de diferentes regimes de treinamento para diferentes modalidades, que não são compatíveis entre si: GPT-3 completa sentenças em treinamento, um transformador de visão segmenta imagens e um sistema de reconhecimento de fala prevê sons ausentes. Todos os sistemas de IA, portanto, trabalham com diferentes tipos de dados, às vezes Pixels, às vezes palavras e às vezes forma de onda de áudio. Essa discrepância significa que os avanços da pesquisa para um tipo de algoritmo não são transferidos automaticamente para outro.

Metas data2vec processa diferentes modalidades

Pesquisadores da Metas AI Research estão apresentando um único algoritmo de aprendizado que pode ser usado para treinar um sistema de IA com imagens, texto ou linguagem falada. O algoritmo é chamado de “data2vec”, uma referência ao algoritmo word2vec, que foi a base para o desenvolvimento de modelos de linguagem em larga escala. A Data2vec combina o processo de treinamento das três modalidades e atinge em benchmarks o desempenho das alternativas existentes para modalidades individuais.

O Data2vec contorna a necessidade de diferentes regimes de treinamento para diferentes modalidades com duas redes que trabalham juntas. A chamada rede Teacher primeiro calcula uma representação interna de, digamos, uma imagem de cachorro. As representações internas consistem, entre outras coisas, nos pesos da rede neural. Em seguida, os pesquisadores mascaram uma parte da imagem do cachorro e deixam a rede Student calcular uma representação interna da imagem também.

No entanto, a rede Student deve prever a representação da imagem completa. Mas, em vez de aprender com mais imagens, como o Vision Transformer, a rede do Aluno aprende a prever as representações da rede do Professor.

Uma vez que o último foi capaz de processar a imagem completa, com inúmeras passagens de treinamento, a rede do Aluno aprende cada vez melhor a prever as representações do Professor e, portanto, as imagens completas.

Como a rede do Aluno não prevê diretamente os Pixels na imagem, mas sim as representações da rede do Professor, a partir das quais os Pixels podem ser reconstruídos, o mesmo método funciona para outros dados, como fala ou texto. Esta etapa intermediária de previsões de representação torna o Data2vec adequado para todas as modalidades.

O Data2vec visa ajudar a IA a aprender de forma mais geral

Em sua essência, os pesquisadores estão interessados ​​em aprender de forma mais geral: a IA deve ser capaz de aprender muitas tarefas diferentes, mesmo aquelas que são completamente estranhas a ela. Queremos uma máquina que não apenas reconheça os animais mostrados em seus dados de treinamento, mas também seja capaz de se adaptar a novas criaturas se dissermos como elas se parecem, disse a equipe da Meta. Os pesquisadores estão seguindo a visão do chefe de IA da Meta, Yann LeCun, que na primavera de 2021 chamou o aprendizado auto-supervisionado de “matéria negra da inteligência”.

A Meta não está sozinha em seus esforços para permitir o aprendizado auto-supervisionado para várias modalidades. Em março de 2021, a Deepmind lançou o Perceiver, um modelo Transformer que pode processar imagens, áudio, vídeo e dados de ponto de nuvem. No entanto, isso ainda foi treinado de forma supervisionada.

Então, em agosto de 2021, a Deepmind introduziu o Perceiver IO, uma variante aprimorada que gera uma variedade de resultados a partir de diferentes dados de entrada, tornando-o adequado para uso em processamento de fala, análise de imagem ou compreensão de dados multimodais, como vídeo. No entanto, o Perceiver IO ainda usa diferentes regimes de treinamento para diferentes modalidades.

Os pesquisadores da Meta agora estão planejando novas melhorias e podem procurar combinar o método de aprendizado data2vec com o Perceiver IO da Deepmind. Modelos pré-treinados de data2vec estão disponíveis no Meta’s GithubGenericName .

Leia mais sobre Inteligência Artificial:

  • IA verdadeiramente inteligente – três coisas que o chefe de IA do Google diz que estão faltando
  • Moffet AI: startup de chips AI recebe investimento de um milhão de dólares
  • História dos robôs: de Heron a Spot para o futuro da IA