O DALL-E 2 da OpenAI ainda tem alguns problemas com conceitos

Sumário

O DALL-E 2 da OpenAI comete erros
DALL-E 2 mistura conceitos – e tem uma atitude muito positiva

O DALL-E 2 da OpenAI produz imagens impressionantes, mas o sistema AI não é perfeito. Os primeiros experimentos mostram suas limitações atuais.

Algumas semanas atrás, a OpenAI demonstrou a capacidades impressionantes do DALL-E 2 . O modelo de IA multimodal estabelece um novo padrão para imagens geradas por IA: a partir de descrições de texto às vezes complexas, o DALL-E 2 gera imagens em uma variedade de estilos, de pinturas a óleo a fotorrealismo.

Chefe da OpenAI, Sam Altman vê o DALL-E 2 como um dos primeiros exemplos do impacto da IA no mercado de trabalho . Uma década atrás, diz ele, o trabalho físico e cognitivo foi apontado como as primeiras vítimas dos sistemas de IA – enquanto o trabalho criativo foi o último alvo. Agora parece que a ordem está se invertendo, diz Altman.

O DALL-E 2 da OpenAI comete erros

No artigo científico que acompanhou a apresentação do DALL-E 2, a OpenAI aponta algumas limitações do sistema. Por exemplo, os pesquisadores testaram a capacidade do DALL-E de realizar composicionalidade, que é a fusão significativa de várias propriedades de objetos, como cor, forma e posicionamento na imagem.

Os testes mostram que o DALL-E 2 não entende as relações lógicas fornecidas nas descrições e, portanto, organiza os cubos coloridos incorretamente, por exemplo. Os motivos a seguir mostram a tentativa de DALL-E de colocar um cubo vermelho em cima de um cubo azul.

Enquanto isso, alguns candidatos obtiveram acesso ao teste beta fechado do sistema e revelam outras limitações do DALL-E 2.

O usuário do Twitter, Benjamin Hilton, relata em um tópico correspondente que geralmente precisa de várias variantes de entrada para obter um bom resultado. Como exemplo, ele fornece uma imagem para a entrada “Uma pintura em estilo renascentista de um moderno corredor de supermercado. No corredor há uma multidão de compradores com carrinhos de compras tentando obter itens reduzidos”.

#dalle pic.twitter.com/2kuoVnaqR2

– Benjamin Hilton (@benjamin_hilton) 28 de abril de 2022

Embora carrinhos de compras e clientes façam parte da imagem, o supermercado parece tudo menos moderno. Mal-entendidos também ocorreriam em outros casos, por exemplo, quando a palavra inglesa “operated” é processada no sentido médico em vez de, por exemplo, operar uma máquina.

Não fiz as legendas – não é bom no texto #dalle pic.twitter.com/4YvxdAqZPZ

– Benjamin Hilton (@benjamin_hilton) 28 de abril de 2022

Em alguns casos, entradas complexas não produziram nenhum resultado significativo. Como exemplo, Hilton cita a descrição “Dois cachorros vestidos como soldados romanos em um navio pirata olhando para a cidade de Nova York através de uma luneta”.

DALL-E 2 mistura conceitos – e tem uma atitude muito positiva

Em alguns casos, DALL-E 2 também mistura conceitos: em uma imagem, um esqueleto e um monge deveriam estar sentados juntos, mas o monge ainda parece bastante ossudo mesmo depois de várias tentativas.

#dalle pic.twitter.com/rsCKclmtD0

– Benjamin Hilton (@benjamin_hilton) 28 de abril de 2022

DALL-E 2 também teve problemas com rostos, planos coerentes como um plano de terreno ou um labirinto e com texto. O sistema não conseguiu lidar com negações: uma entrada como “Uma nave espacial sem uma maçã” resulta em uma nave espacial com uma maçã.

A propósito, o DALL-E pode representar 2 maçãs de maneira excelente – apenas ao contar, o sistema não é tão preciso. Só conta até quatro.

6) “10 maçãs” pic.twitter.com/MoGgpNFSn4

– Benjamin Hilton (@benjamin_hilton) 30 de abril de 2022

Sumário

O DALL-E 2 da OpenAI comete erros

DALL-E 2 mistura conceitos – e tem uma atitude muito positiva

Artigos Relacionados