Sumário
Com o Imagen, o Google segue o OpenAI e mostra que a inteligência artificial pode produzir imagens confiáveis e úteis.
Imagen é a resposta do Google para o OpenAI recentemente revelado imagem AI DALL-E 2 . Com uma diferença: a OpenAI introduziu o DALL-E 2 diretamente como um produto, incluindo testes beta que estarão disponíveis para mais pessoas a partir deste verão.
Segundo os pesquisadores do Google, o Imagen supera o DALL-E 2 em termos de precisão e qualidade, mas atualmente está disponível apenas como artigo científico. Por razões éticas, é improvável que isso mude em um futuro próximo, mas mais sobre isso mais tarde.
Texto vira imagem
Imagen depende de um grande, pré-treinado Modelo de linguagem do transformador (T5) que gera uma representação numérica da imagem (image embedding), a partir da qual um modelo de difusão cria uma imagem. Os modelos de difusão veem imagens que gradualmente se tornam ruidosas durante o treinamento. Os modelos podem reverter esse processo após o treinamento, ou seja, produzir uma imagem a partir do ruído.
A imagem original de baixa resolução (64 x 64) é então ampliada para 1024 x 1024 Pixels usando a escala AI – a mesma resolução do DALL-E 2. Semelhante ao Nvidia DLSS, a escala AI adiciona novos detalhes à imagem original que correspondem ao conteúdo , para que também ofereça alta nitidez na resolução alvo. Esse processo de aumento de escala economiza para o Imagen muito poder de computação que seria necessário se o modelo produzisse altas resoluções diretamente.
Imagen tem melhor desempenho do que DALL-E 2 na avaliação humana
Uma descoberta importante da equipe de IA do Google é que um grande modelo de linguagem pré-treinado é surpreendentemente eficaz para codificar texto para síntese de imagem subsequente. Além disso, para geração de imagens mais realistas, dizem eles, aumentar o tamanho do modelo de linguagem tem um efeito maior do que um treinamento mais extenso do modelo de difusão que cria a imagem real.
A equipe desenvolveu o Benchmark “DrawBench” , em que os humanos avaliam a qualidade de uma imagem gerada e quão bem os detalhes da imagem correspondem ao texto de entrada. Os testadores comparam os resultados de vários sistemas em paralelo.
O Imagen teve um desempenho significativamente melhor do que o DALL-E 2 neste teste, o que os pesquisadores atribuem em parte à maior compreensão da linguagem do modelo de texto. Na maioria dos casos, Imagen foi capaz de traduzir a instrução “Um panda fazendo latte art” no motivo apropriado: um panda derramando leite perfeitamente em um latte. Em vez disso, o DALL-E 2 cria um rosto de panda na espuma do leite.
Mova-se devagar e deixe as coisas cicatrizarem
Atualmente, o Google AI não planeja liberar o modelo por razões éticas, pois o modelo de texto subjacente contém preconceitos e restrições sociais, portanto, o Imagen pode gerar estereótipos prejudiciais, por exemplo.
Além disso, a Imagen atualmente tem “limitações significativas” na geração de imagens com pessoas, “incluindo uma tendência geral para gerar imagens de pessoas com tons de pele mais claros e uma tendência de imagens que retratam diferentes profissões se alinharem com os estereótipos de gênero ocidentais”. Por esse motivo, o Google não deseja lançar o Imagen ou tecnologia semelhante “sem outras proteções em vigor”.
DALL-E 2 também tem esses problemas . A OpenAI está, portanto, lançando a imagem AI muito lentamente para cerca de 1.000 testadores por mês. UMA estudo recente após três milhões de imagens geradas mostrou que atualmente apenas uma fração dos motivos DALL-E violam as diretrizes de conteúdo da OpenAI.
Jeff Dean, pesquisador sênior de IA do Google AI, vê a IA como tendo o potencial de promover a criatividade na colaboração humano-computador. Imagen, disse ele, é “uma direção” que o Google está seguindo a esse respeito. reitor compartilha vários exemplos de Imagen no Twitter . Mais informações e uma demonstração interativa estão disponíveis no Imagem na página do projeto .