Meta mostra modelo de IA generativo com acesso ao banco de dados

Sumário

Google e Meta dependem de consultas para modelos multimodais
O RA-CM3 da Meta depende de um banco de dados externo, tornando-o muito menor

Modelos generativos de IA como DALL-E 2 ou Stable Diffusion armazenam seu conhecimento em seus parâmetros. Meta mostra um modelo que pode acessar um banco de dados externo.

Modelos atuais de IA generativa, como DALL-E 2 geram imagens impressionantes, mas armazenam seus conhecimentos nos parâmetros do modelo. As melhorias exigem modelos cada vez maiores e cada vez mais dados de treinamento.

Os pesquisadores estão, portanto, trabalhando em várias maneiras de ensinar novos conceitos aos modelos ou fornecer acesso direto ao conhecimento externo.

As ideias para esses métodos de recuperação aumentada vêm de outro campo de modelos de IA generativa: o processamento de linguagem natural. OpenAI, Google ou Meta já demonstraram WebGPT e outros modelos de linguagem que podem, por exemplo, acessar a Internet para verificar suas respostas.

Google e Meta dependem de consultas para modelos multimodais

Em outubro, pesquisadores do Google demonstraram Re-Imagen (gerador de conversão de texto em imagem com recuperação aumentada) um modelo generativo que usa uma base de conhecimento multimodal externa para gerar imagens.

Ré- Imagen usa o banco de dados para recuperar informações semânticas e visuais sobre objetos desconhecidos ou raros e, assim, melhora a precisão da geração de imagens.

Em um novo artigo, pesquisadores da Meta, da Universidade de Stanford e da Universidade de Washington agora demonstram a modelo generativo RA-CM3 (Recuperação Aumentada CM3), que também usa dados externos. CM3 significa “Causal Masked Multimodal Model” e é um modelo de transformador introduzido pela Meta no início de 2022 que pode gerar imagens e texto.

O RA-CM3 da Meta depende de um banco de dados externo, tornando-o muito menor

O RA-CM3 da Meta foi treinado usando parte do conjunto de dados LAION que também foi utilizado para Difusão estável . Ao contrário do Re-Imagen, o RA-CM3 pode processar texto e imagens. Prompts de texto e imagens podem servir como entrada.

A entrada é processada por um codificador multimodal e passada para um recuperador, que recupera dados multimodais relevantes da memória externa, que também são processados por um codificador multimodal.

Ambos os fluxos de dados são então passados para o gerador multimodal, que então gera texto ou imagens. O RA-CM3 pode usar imagens externas e dados de texto para gerar imagens mais precisas ou para gerar legendas de imagens. O banco de dados também permite que o modelo recupere imagens de uma determinada montanha, edifício ou monumento e use-o para gerar uma imagem contendo o objeto.

1675262786 897 Meta mostra modelo de IA generativo com acesso ao banco

Usando as informações externas, o modelo também pode completar melhor as imagens. O RA-CM3 também exibe habilidades de classificação de imagens de uma e poucas fotos, escrevem os pesquisadores.

1675262787 699 Meta mostra modelo de IA generativo com acesso ao banco

No geral, O RA-CM3 usa significativamente menos dados e recursos de treinamento e também é muito menor do que modelos comparáveis, escreve a equipe. Para o maior modelo, os pesquisadores usaram 150 milhões de imagens e três bilhões de parâmetros. No entanto, a qualidade média das imagens geradas ainda está abaixo dos modelos muito maiores da OpenAI ou do Google.

No entanto, o efeito do dimensionamento também é evidente no RA-CM3: o maior modelo está à frente das variantes menores, e a equipe supõe que os modelos maiores serão significativamente melhores.

Sumário

Google e Meta dependem de consultas para modelos multimodais

O RA-CM3 da Meta depende de um banco de dados externo, tornando-o muito menor

Artigos Relacionados