OpenAI DALL-E 2 coloca a arte na inteligência artificial

OpenAI cria um novo padrão em arte AI com DALL-E 2. O modelo multimodal gera motivos impressionantes, versáteis e criativos e pode modificar imagens existentes para combinar com o estilo. Como descrição, uma frase é suficiente, várias frases funcionam ainda melhor e criam uma imagem mais detalhada.

Em janeiro de 2021, a OpenAI revelou o DALL-E, um modelo de IA multimodal que gera imagens para entrada de texto, que são classificadas por qualidade pelo modelo CLIP desenvolvido em paralelo.

Os resultados foram impressionantes e desencadearam toda uma série de experimentos nos meses seguintes, combinando o CLIP com o StyleGAN da Nvidia, por exemplo, para também gerar ou modificar imagens de acordo com descrições de texto.

Então, em dezembro de 2021, OpenAI reportado com GLIDE , um modelo multimodal que utiliza os chamados modelos de difusão. Os modelos de difusão gradualmente adicionam ruído às imagens durante seu treinamento e depois aprendem a reverter esse processo. Após o treinamento de IA, o modelo pode gerar imagens arbitrárias de puro ruído com objetos vistos durante o treinamento.

DALL-E 2 depende de GLIDE e CLIP

Os resultados do GLIDE superam o DALL-E e também deixam outros modelos para trás. Ao contrário do DALL-E, no entanto, o GLIDE não depende do CLIP. Um protótipo correspondente que combinou CLIP e GLIDE não alcançou a qualidade de GLIDE sem CLIP.

Agora, a OpenAI demonstra o DALL-E 2, que conta com um modelo de difusão estendida no estilo do GLIDE, mas o combina com o CLIP. Para isso, o CLIP não gera uma imagem a partir de uma descrição de texto, mas uma incorporação de imagem – uma representação numérica da imagem.

O decodificador de difusão então gera uma imagem a partir dessa representação. Nisso, o DALL-E 2 difere de seu antecessor, que usava o CLIP exclusivamente para filtrar os resultados gerados.

As imagens produzidas são novamente impressionantes e superam claramente os resultados de DALL-E e GLIDE.

1675163427 364 OpenAI DALL E 2 coloca a arte na inteligencia artificial

A integração do CLIP no DALL-E 2 também permite que o OpenAI controle com mais precisão a geração de imagens por meio de texto. Isso permite que certos elementos sejam adicionados a uma imagem, como um arco de natação de flamingo em uma piscina ou um corgi em uma imagem.

Particularmente impressionante é a capacidade do DALL-E 2 de adaptar o resultado ao ambiente imediato: o corgi recém-adicionado se ajusta ao respectivo estilo de pintura ou se torna fotorrealista se for colocado em um banco em frente à pintura.

1675163428 763 OpenAI DALL E 2 coloca a arte na inteligencia artificial
1675163428 335 OpenAI DALL E 2 coloca a arte na inteligencia artificial
1675163429 163 OpenAI DALL E 2 coloca a arte na inteligencia artificial

As imagens geradas também são aumentadas para 1.024 por 1.024 Pixels por dois modelos adicionais. Assim, o DALL-E 2 atinge uma qualidade de imagem que pode permitir o uso em determinados contextos profissionais.

DALL-E 2 disponível apenas de forma limitada por enquanto

“O DALL-E 2 é um projeto de pesquisa que atualmente não disponibilizamos em nossa API”, afirma a postagem no blog da OpenAI. A organização quer explorar os limites e possibilidades do DALL-E 2 com um grupo seleto de usuários.

Os interessados ​​podem solicitar acesso DALL-E 2 no site, o lançamento oficial no mercado está previsto para o verão. A OpenAI também buscou uma abordagem semelhante com o lançamento do GPT-3, mas a AI de fala agora está disponível sem uma lista de espera.

A capacidade do DALL-E 2 de gerar imagens violentas, odiosas ou NSFW é restrita. Para isso, o conteúdo explícito foi removido dos dados de treinamento. O DALL-E 2 também é considerado incapaz de gerar rostos fotorrealistas. Os usuários devem aderir Política de conteúdo da OpenAI que proíbe o uso do DALL-E 2 para diversas finalidades.

O DALL-E 2 foi projetado para ajudar as pessoas a se expressarem de forma criativa, diz OpenAI. O modelo também ajuda a entender os sistemas avançados de IA – que a OpenAI diz ser fundamental para o desenvolvimento da IA ​​”para o benefício da humanidade”.

Mais informações estão disponíveis no Página GitHub do DALL-E 2 . Para mais exemplos, consulte Postagem no blog da OpenAI .

Leia mais sobre Inteligência Artificial:

  • Google AI: nova IA de voz gigante pode explicar piadas
  • Inteligência Artificial: China pesquisa IA em “escala cerebral”
  • Inteligência Artificial para ajudar em transplantes de coração