O eDiffi da Nvidia é uma alternativa impressionante ao DALL-E 2 ou Stable Diffusion

O eDiffi da Nvidia é um modelo de IA generativo para conversão de texto em imagem e supera alternativas como DALL-E 2 ou Stable Diffusion, de acordo com a empresa.

Seguindo OpenAI, Google, meio da jornada , e StabilityAI, a Nvidia agora está mostrando um modelo generativo de conversão de texto em imagem. Todos os principais modelos geradores de texto para imagem hoje são modelos de difusão. Exemplos bem conhecidos são DALL-E 2, Midjourney, Imagen ou Difusão estável .

Esses modelos realizam a síntese de imagens por meio de um processo iterativo de eliminação de ruídos, a difusão homônima. Desta forma, as imagens são gradualmente geradas a partir de ruído aleatório.

O eDiffi da Nvidia usa vários especialistas em denoiser

Os modelos de IA publicados ou apresentados até agora geralmente treinam um único modelo para reduzir o ruído de todo o processo. Em contraste, o modelo eDiffi agora apresentado pela Nvidia conta com um conjunto de denoisers especializados em denoiser diferentes intervalos do processo generativo.

De acordo com a Nvidia, o eDiffi alcança melhores resultados do que DALL-E 2 ou Stable Diffusion usando vários denoisers especializados. Por exemplo, eDiffi é melhor na geração de texto em imagens e adere melhor às especificações de conteúdo do prompt de texto original nos exemplos mostrados pela Nvidia.

O modelo da Nvidia se baseia em uma combinação de três modelos de difusão: um modelo básico que pode sintetizar imagens com resolução de 64 × 64 e dois modelos de super-resolução que aumentam a resolução incremental de imagens para 256 × 256 ou 1024 × 1024.

1675247689 427 O eDiffi da Nvidia e uma alternativa impressionante ao DALL E

Os modelos calculam incorporações de texto T5 além das incorporações de imagem e texto CLIP normais. O T5 é o transformador de texto para texto do Google e complementa as incorporações CLIP, de acordo com a Nvidia. A combinação das duas incorporações de texto cria imagens mais detalhadas que correspondem melhor ao prompt, dizem os pesquisadores da Nvidia.

Várias imagens geradas do modelo eDiffi AI da Nvidia.

Nvidia eDiffi pinta com palavras

Além dos prompts de texto, o eDiffi também pode processar uma imagem de referência como entrada e usar seu estilo para síntese de imagem.

A Nvidia também mostra um recurso “pintar com palavras” onde o usuário pode controlar a posição dos objetos mencionados na entrada de texto fazendo primeiro um esboço, depois selecionando palavras e escrevendo-as na imagem.

Vídeo: Nvidia

A Nvidia está mantendo silêncio sobre seus planos com o eDiffi. Até agora, apenas o papel está disponível.

Mas as mudanças apresentadas no pipeline de treinamento poderão ser utilizadas futuramente para novos modelos de DALL-E ou Stable Diffusion, onde poderão possibilitar grandes avanços na qualidade e controle sobre as imagens sintetizadas.