O DALL-E 2 da OpenAI ainda tem alguns problemas com conceitos – e não dá para contar

O DALL-E 2 da OpenAI produz imagens impressionantes, mas o sistema AI não é perfeito. Os primeiros experimentos mostram suas limitações atuais.

Algumas semanas atrás, a OpenAI demonstrou a capacidades impressionantes do DALL-E 2 . O modelo de IA multimodal estabelece um novo padrão para imagens geradas por IA: a partir de descrições de texto às vezes complexas, o DALL-E 2 gera imagens em uma variedade de estilos, de pinturas a óleo a fotorrealismo.

Chefe da OpenAI, Sam Altman vê o DALL-E 2 como um dos primeiros exemplos do impacto da IA ​​no mercado de trabalho . Uma década atrás, diz ele, o trabalho físico e cognitivo foi apontado como as primeiras vítimas dos sistemas de IA – enquanto o trabalho criativo foi o último alvo. Agora parece que a ordem está se invertendo, diz Altman.

O DALL-E 2 da OpenAI comete erros

No artigo científico que acompanhou a apresentação do DALL-E 2, a OpenAI aponta algumas limitações do sistema. Por exemplo, os pesquisadores testaram a capacidade do DALL-E de realizar composicionalidade, que é a fusão significativa de várias propriedades de objetos, como cor, forma e posicionamento na imagem.

Os testes mostram que o DALL-E 2 não entende as relações lógicas fornecidas nas descrições e, portanto, organiza os cubos coloridos incorretamente, por exemplo. Os motivos a seguir mostram a tentativa de DALL-E de colocar um cubo vermelho em cima de um cubo azul.

Enquanto isso, alguns candidatos obtiveram acesso ao teste beta fechado do sistema e revelam outras limitações do DALL-E 2.

O usuário do Twitter, Benjamin Hilton, relata em um tópico correspondente que geralmente precisa de várias variantes de entrada para obter um bom resultado. Como exemplo, ele fornece uma imagem para a entrada “Uma pintura em estilo renascentista de um moderno corredor de supermercado. No corredor há uma multidão de compradores com carrinhos de compras tentando obter itens reduzidos”.

Embora carrinhos de compras e clientes façam parte da imagem, o supermercado parece tudo menos moderno. Mal-entendidos também ocorreriam em outros casos, por exemplo, quando a palavra inglesa “operated” é processada no sentido médico em vez de, por exemplo, operar uma máquina.

Em alguns casos, entradas complexas não produziram nenhum resultado significativo. Como exemplo, Hilton cita a descrição “Dois cachorros vestidos como soldados romanos em um navio pirata olhando para a cidade de Nova York através de uma luneta”.

DALL-E 2 mistura conceitos – e tem uma atitude muito positiva

Em alguns casos, DALL-E 2 também mistura conceitos: em uma imagem, um esqueleto e um monge deveriam estar sentados juntos, mas o monge ainda parece bastante ossudo mesmo depois de várias tentativas.

DALL-E 2 também teve problemas com rostos, planos coerentes como um plano de terreno ou um labirinto e com texto. O sistema não conseguiu lidar com negações: uma entrada como “Uma nave espacial sem uma maçã” resulta em uma nave espacial com uma maçã.

A propósito, o DALL-E pode representar 2 maçãs de maneira excelente – apenas ao contar, o sistema não é tão preciso. Só conta até quatro.