Sumário
A Meta apresenta um algoritmo de aprendizagem que permite a aprendizagem auto-supervisionada para diferentes modalidades e tarefas.
A maioria dos sistemas de IA ainda aprende supervisionada com dados rotulados. Mas os sucessos da aprendizagem auto-supervisionada em modelos de linguagem de larga escala, como GPT-3 e, mais recentemente, sistemas de análise de imagem, como SEER da Meta e Vision Transformer do Google, demonstram claramente que IAs que aprendem autonomamente as estruturas de linguagens ou imagens são mais flexível e poderoso.
No entanto, até agora, os pesquisadores ainda precisam de diferentes regimes de treinamento para diferentes modalidades, que são incompatíveis entre si: GPT-3 completa sentenças em treinamento, um transformador de visão segmenta imagens e um sistema de reconhecimento de fala prevê sons ausentes.
Todos os sistemas de IA, portanto, trabalham com diferentes tipos de dados, às vezes Pixels, às vezes palavras, às vezes forma de onda de áudio. Essa discrepância significa, por exemplo, que os avanços de pesquisa para um tipo de algoritmo não são transferidos automaticamente para outro.
Metas data2vec processa diferentes modalidades
Pesquisadores da Metas AI Research estão apresentando um único algoritmo de aprendizado que pode ser usado para treinar um sistema de IA com imagens, texto ou linguagem falada. O algoritmo é chamado de “data2vec”, uma referência ao algoritmo word2vec, que é uma base para o desenvolvimento de modelos de linguagem em larga escala. A Data2vec combina o processo de treinamento das três modalidades e atinge em benchmarks o desempenho das alternativas existentes para modalidades individuais.
O Data2vec contorna a necessidade de diferentes regimes de treinamento para diferentes modalidades com duas redes que trabalham juntas. A chamada rede Teacher primeiro calcula uma representação interna de, digamos, uma imagem de cachorro. As representações internas consistem, entre outras coisas, nos pesos da rede neural. Em seguida, os pesquisadores mascaram uma parte da imagem do cachorro e deixam a rede Student calcular uma representação interna da imagem também.
No entanto, a rede Student deve prever a representação da imagem completa. Mas, em vez de aprender com mais imagens, como o Vision Transformer, a rede do Aluno aprende a prever as representações da rede do Professor.
Uma vez que o último foi capaz de processar a imagem completa, com inúmeras passagens de treinamento, a rede do Aluno aprende cada vez melhor a prever as representações do Professor e, portanto, as imagens completas.
Como a rede do Aluno não prevê diretamente os Pixels na imagem, mas sim as representações da rede do Professor, a partir das quais os Pixels podem ser reconstruídos, o mesmo método funciona para outros dados, como fala ou texto. Essa etapa intermediária sobre as previsões de representação torna o Data2vec adequado para todas as modalidades.
O Data2vec visa ajudar a IA a aprender de forma mais geral
Em sua essência, os pesquisadores estão interessados em aprender de forma mais geral: “A IA deve ser capaz de aprender muitas tarefas diferentes, mesmo aquelas que são completamente estranhas a ela. Queremos uma máquina que não apenas reconheça os animais mostrados em seus dados de treinamento, mas também seja capaz de se adaptar a novas criaturas se dissermos como elas se parecem”, escreve a equipe de Meta. Os pesquisadores estão seguindo a visão do chefe de IA da Meta, Yann LeCun, que na primavera de 2021 chamou o aprendizado auto-supervisionado de “matéria negra da inteligência”.
A Meta não está sozinha em seus esforços para permitir o aprendizado auto-supervisionado para várias modalidades. Em março de 2021, a Deepmind lançou o Perceiver, um modelo Transformer que pode processar imagens, áudio, vídeo e dados de ponto de nuvem. No entanto, isso foi treinado de forma supervisionada.
Então, em agosto de 2021, a Deepmind introduziu o Perceiver IO, uma variante aprimorada que gera uma variedade de resultados a partir de diferentes dados de entrada, tornando-o adequado para uso em processamento de fala, análise de imagem ou compreensão de dados multimodais, como vídeo. No entanto, o Perceiver IO ainda usa diferentes regimes de treinamento para diferentes modalidades.
Os pesquisadores da Meta agora estão planejando novas melhorias e podem procurar combinar o método de aprendizado data2vec com o Perceiver IO da Deepmind. Modelos pré-treinados de data2vec estão disponíveis no Meta’s GithubGenericName .
Leia mais sobre Inteligência Artificial:
- IA verdadeiramente inteligente – três coisas que o chefe de IA do Google diz que estão faltando
- História dos robôs: de Heron a Spot para o futuro da IA
- Diagnósticos de IA: o novo sistema de IA aumenta a precisão em até 8%