Sumário
O DALL-E 2 da OpenAI produz imagens impressionantes, mas o sistema AI não é perfeito. Os primeiros experimentos mostram suas limitações atuais.
Algumas semanas atrás, a OpenAI demonstrou a capacidades impressionantes do DALL-E 2 . O modelo de IA multimodal estabelece um novo padrão para imagens geradas por IA: a partir de descrições de texto às vezes complexas, o DALL-E 2 gera imagens em uma variedade de estilos, de pinturas a óleo a fotorrealismo.
Chefe da OpenAI, Sam Altman vê o DALL-E 2 como um dos primeiros exemplos do impacto da IA no mercado de trabalho . Uma década atrás, diz ele, o trabalho físico e cognitivo foi apontado como as primeiras vítimas dos sistemas de IA – enquanto o trabalho criativo foi o último alvo. Agora parece que a ordem está se invertendo, diz Altman.
O DALL-E 2 da OpenAI comete erros
No artigo científico que acompanhou a apresentação do DALL-E 2, a OpenAI aponta algumas limitações do sistema. Por exemplo, os pesquisadores testaram a capacidade do DALL-E de realizar composicionalidade, que é a fusão significativa de várias propriedades de objetos, como cor, forma e posicionamento na imagem.
Os testes mostram que o DALL-E 2 não entende as relações lógicas fornecidas nas descrições e, portanto, organiza os cubos coloridos incorretamente, por exemplo. Os motivos a seguir mostram a tentativa de DALL-E de colocar um cubo vermelho em cima de um cubo azul.
Enquanto isso, alguns candidatos obtiveram acesso ao teste beta fechado do sistema e revelam outras limitações do DALL-E 2.
O usuário do Twitter, Benjamin Hilton, relata em um tópico correspondente que geralmente precisa de várias variantes de entrada para obter um bom resultado. Como exemplo, ele fornece uma imagem para a entrada “Uma pintura em estilo renascentista de um moderno corredor de supermercado. No corredor há uma multidão de compradores com carrinhos de compras tentando obter itens reduzidos”.
#dalle pic.twitter.com/2kuoVnaqR2
– Benjamin Hilton (@benjamin_hilton) 28 de abril de 2022
Embora carrinhos de compras e clientes façam parte da imagem, o supermercado parece tudo menos moderno. Mal-entendidos também ocorreriam em outros casos, por exemplo, quando a palavra inglesa “operated” é processada no sentido médico em vez de, por exemplo, operar uma máquina.
Não fiz as legendas – não é bom no texto #dalle pic.twitter.com/4YvxdAqZPZ
– Benjamin Hilton (@benjamin_hilton) 28 de abril de 2022
Em alguns casos, entradas complexas não produziram nenhum resultado significativo. Como exemplo, Hilton cita a descrição “Dois cachorros vestidos como soldados romanos em um navio pirata olhando para a cidade de Nova York através de uma luneta”.
DALL-E 2 mistura conceitos – e tem uma atitude muito positiva
Em alguns casos, DALL-E 2 também mistura conceitos: em uma imagem, um esqueleto e um monge deveriam estar sentados juntos, mas o monge ainda parece bastante ossudo mesmo depois de várias tentativas.
#dalle pic.twitter.com/rsCKclmtD0
– Benjamin Hilton (@benjamin_hilton) 28 de abril de 2022
DALL-E 2 também teve problemas com rostos, planos coerentes como um plano de terreno ou um labirinto e com texto. O sistema não conseguiu lidar com negações: uma entrada como “Uma nave espacial sem uma maçã” resulta em uma nave espacial com uma maçã.
A propósito, o DALL-E pode representar 2 maçãs de maneira excelente – apenas ao contar, o sistema não é tão preciso. Só conta até quatro.
6) “10 maçãs” pic.twitter.com/MoGgpNFSn4
– Benjamin Hilton (@benjamin_hilton) 30 de abril de 2022