O DALL-E 2 da OpenAI desenvolve um vocabulário oculto

Sumário

DALL-E 2 tem problemas com texto
O DALL-E 2 tem um vocabulário oculto?

O DALL-E 2 da OpenAI gera fotos e desenhos confiáveis, mas não pode escrever – ou pode? Um estudo mostra que as palavras geradas pelo DALL-E 2 em imagens não são uma mistura aleatória de letras, mas podem ter significado.

Em abril, a OpenAI divulgou detalhes iniciais sobre DALL-E 2 , um sistema de IA que gera imagens impressionantes. Os resultados foram muito além do que a inteligência artificial poderia fazer até aquele momento.

Assim como o modelo de linguagem GPT-3, o DALL-E 2 começou em uma fase beta fechada. Enquanto isso, os usuários aprovados geraram mais de três milhões de imagens com DALL-E 2 . A OpenAI pretende agora ativar 1.000 novos acessos todas as semanas.

DALL-E 2 tem problemas com texto

O sistema de imagem do OpenAI gera cenas parcialmente fotorrealistas, como fotos falsas de férias , ursinhos de pelúcia no estilo Picasso, ou uma estátua antiga de um homem tropeçando em um gato. Parece que quase não há limites para a criatividade.

Mas DALL-E 2 também tem pontos fracos como quando o sistema dispõe incorretamente cubos coloridos em uma figura em desacordo com as instruções, mistura conceitos como supermercado e renascimento, ou entende “operado” no sentido médico ao invés de, por exemplo, operar uma máquina.

Não fiz as legendas – não é bom no texto #dalle pic.twitter.com/4YvxdAqZPZ

– Benjamin Hilton (@benjamin_hilton) 28 de abril de 2022

Além disso, o DALL-E 2 tem problemas para colocar texto em uma imagem. Algo A nova imagem AI Imagen do Google tem à frente do produto da OpenAI. Um exemplo da pesquisa relacionada da OpenAI: em vez de escrever “Deep Learning” em uma placa em uma imagem gerada, a IA escreve “Deinp Lerpt” ou “Diep Deep”.

Em vários outros testes, o DALL-E 2 produziu apenas palavras fantasiosas. O motivo provavelmente é o modelo CLIP multimodal estático da OpenAI, que faz parte da arquitetura DALL-E 2. O Imagen do Google, por outro lado, conta com um grande modelo de linguagem com uma melhor compreensão da linguagem.

O DALL-E 2 tem um vocabulário oculto?

Agora, pesquisadores da Universidade do Texas mostraram que as estranhas cordas do DALL-E 2 provavelmente não são tão aleatórias quanto se pensava anteriormente. Em numerosos experimentos, eles foram capazes de mostrar que DALL-E 2 desenvolveu um vocabulário oculto que aparece em imagens com texto. Essas supostas palavras de fantasia podem, por sua vez, ser usadas para controlar o sistema de IA.

Por exemplo, a entrada “Dois fazendeiros conversando sobre vegetais, com legendas” gera uma imagem com texto aparentemente sem sentido.

Uma limitação conhecida do DALLE-2 é que ele luta com o texto. Por exemplo, o prompt: “Dois fazendeiros conversando sobre vegetais, com legendas” fornece uma imagem que parece ter um texto sem sentido.

No entanto, o texto não é tão aleatório quanto inicialmente parece… (2/n) pic.twitter.com/B3e5qVsTKu

– Giannis Daras (@giannis_daras) 31 de maio de 2022

Mas quando o texto “Vicootes” é usado como entrada para o DALL-E 2, o sistema gera imagens de vegetais. Já o texto “Apoploe vesrreaitars” gera imagens de pássaros.

“Parece que os fazendeiros estão falando sobre pássaros, mexendo com seus vegetais”, disse o coautor Giannis Daras no Twitter.

Sumário

DALL-E 2 tem problemas com texto

O DALL-E 2 tem um vocabulário oculto?

Artigos Relacionados