Imagen: Google apresenta competição DALL-E 2

Sumário

Texto vira imagem
Imagen tem melhor desempenho do que DALL-E 2 na avaliação humana
Mova-se devagar e deixe as coisas cicatrizarem

Com o Imagen, o Google segue o OpenAI e mostra que a inteligência artificial pode produzir imagens confiáveis e úteis.

Imagen é a resposta do Google para o OpenAI recentemente revelado imagem AI DALL-E 2 . Com uma diferença: a OpenAI introduziu o DALL-E 2 diretamente como um produto, incluindo testes beta que estarão disponíveis para mais pessoas a partir deste verão.

Segundo os pesquisadores do Google, o Imagen supera o DALL-E 2 em termos de precisão e qualidade, mas atualmente está disponível apenas como artigo científico. Por razões éticas, é improvável que isso mude em um futuro próximo, mas mais sobre isso mais tarde.

Texto vira imagem

Imagen depende de um grande, pré-treinado Modelo de linguagem do transformador (T5) que gera uma representação numérica da imagem (image embedding), a partir da qual um modelo de difusão cria uma imagem. Os modelos de difusão veem imagens que gradualmente se tornam ruidosas durante o treinamento. Os modelos podem reverter esse processo após o treinamento, ou seja, produzir uma imagem a partir do ruído.

Sumário

Texto vira imagem

Imagen tem melhor desempenho do que DALL-E 2 na avaliação humana

Mova-se devagar e deixe as coisas cicatrizarem

Artigos Relacionados