Paella é um modelo de IA de texto para imagem compacto e de alto desempenho

Uma equipe internacional de pesquisadores apresenta o Paella, um modelo de IA de conversão de texto em imagem otimizado para desempenho.

Atualmente, os sistemas de IA de conversão de texto em imagem mais conhecidos, como Difusão estável e DALL-E 2 , são baseados em modelos de difusão para geração de imagens e transformadores para compreensão da fala. Isso permite a geração de imagens de alta qualidade para entrada de texto.

No entanto, os sistemas requerem várias etapas de inferência – e, portanto, hardware forte – para obter bons resultados. De acordo com a equipe de pesquisa da Paella, isso pode complicar os cenários de aplicação para os usuários finais.

Voltar para GANs

A equipe apresenta Paella, um modelo de texto para imagem com 573 milhões de parâmetros. Segundo os pesquisadores, ele usa uma arquitetura f8-VQGAN otimizada para desempenho (rede neural convolucional, veja o vídeo explicativo no final do artigo) com uma taxa de compressão média e incorporações CLIP.

As redes GA se espalharam à medida que os deepfakes ganharam popularidade antes de ser recentemente eclipsado por métodos de difusão. No entanto, a equipe de pesquisa vê a arquitetura Paella como uma alternativa de alto desempenho para Diffusion e Transformer: Paella pode gere uma imagem de 256 x 256 Pixels em apenas oito etapas e em menos de 500 milissegundos em uma GPU Nvidia A100. Paella foi treinado por duas semanas com 600 milhões de imagens do conjunto de dados estéticos LAION-5B em 64 GPUs Nvidia A100.

Com nosso modelo, podemos amostrar imagens com apenas 8 etapas e, ao mesmo tempo, obter resultados de alta fidelidade, tornando o modelo atraente para casos de uso limitados por requisitos de latência, memória ou complexidade computacional.

do papel

Além da geração de imagens, Paella pode modificar as imagens de entrada com técnicas como pintura interna (mudança do conteúdo da imagem com base no texto), pintura externa (expansão do assunto com base no texto) e edição estrutural. Paella também oferece suporte a variações imediatas, como estilos de pintura específicos (por exemplo, aquarela).

1675257549 195 Paella e um modelo de IA de texto para imagem

A equipe de pesquisa destaca particularmente a pequena quantidade de código – apenas 400 linhas – usada para treinar e executar a Paella. Essa simplicidade em comparação com os modelos de transformador e difusão pode tornar as técnicas de IA generativas gerenciáveis ​​para mais pessoas, incluindo aquelas fora da pesquisa, dizem eles.

A equipe faz sua código e modelo disponíveis no Github . UMA demonstração de Paella é disponível em Huggingface. A geração da imagem é rápida e corresponde ao texto, mas a qualidade da imagem ainda não corresponde aos modelos de difusão.

No entanto, os pesquisadores apontam para o número comparativamente pequeno de imagens usadas para treinamento, o que dificulta uma comparação justa com outros modelos, “principalmente quando muitos desses modelos são mantidos em sigilo”.

Nesse sentido, os autores veem a Paella, juntamente com a publicação do modelo e do código, como uma contribuição para a “ciência reprodutível e transparente”. O principal autor do estudo da Paella é Dominic Rampas, da Ingolstadt University of Technology.

Vídeo explicativo: O que é uma Rede Neural Convolucional?