O novo modelo AI da OpenAI, GLIDE, gera imagens após a entrada de texto. Os resultados são melhores do que os de outros modelos de IA conhecidos – incluindo o DALL-E da OpenAI.
No início deste ano, a empresa de IA OpenAI revelou um modelo de IA multimodal chamado DALL-E. A IA é treinada com dados de imagem e texto e pode, portanto, gerar imagens que correspondem a uma entrada de texto.
O OpenAI permite que o CLIP do modelo AI multimodal classifique as imagens geradas de acordo com a qualidade. A OpenAI publicou versões simplificadas do CLIP, mas ainda não oferece acesso ao DALL-E.
Durante o ano, os pesquisadores de IA usaram o CLIP em combinação com a técnica deepfake GANs (Generative Adversarial Network) para criar sistemas de IA impressionantes que geram ou modificam imagens com entrada de texto.
Modelos de difusão superam GANs
Em fevereiro, a OpenAI publicou um artigo no qual a equipe alcançou excelentes resultados de geração de imagens pela primeira vez usando uma nova arquitetura de rede. Em vez de usar GANs típicos, OpenAI usou o que chamou modelos de difusão.
Esses modelos de IA gradualmente adicionam ruído às imagens durante o treinamento e depois aprendem a reverter esse processo. Após o treinamento de IA, um modelo de difusão pode idealmente gerar imagens arbitrárias de ruído puro com objetos vistos durante o treinamento.
Então, em maio, os resultados de imagem do OpenAI com Diffusion Models superaram a qualidade de imagem dos GANs pela primeira vez. Em um artigo agora publicado, uma equipe da OpenAI mostra como um modelo de difusão com controle de texto supera o DALL-E e outros modelos.
As imagens de IA estão se tornando mais críveis
GLIDE significa “Guided Language to Image Diffusion for Generation and Editing” e, como o nome sugere, pode usar modelos de difusão para gerar e editar imagens com base apenas na entrada de texto.
O modelo AI foi treinado para fazer isso com imagens e legendas. A equipe também experimentou a integração do CLIP. No entanto, a primeira variante, que aprende de forma independente a gerar imagens a partir do texto, produziu melhores resultados do que aquela com controle de qualidade AI adicional por meio do CLIP.
O GLIDE também pode modificar imagens: os usuários marcam o local que desejam alterar na imagem e depois descrevem a alteração por meio de texto. GLIDE então ajusta automaticamente a imagem.
Todas as imagens foram geradas a partir de uma malha de parâmetros de 3,5 bilhões com uma resolução de 64 por 64 Pixels e upsampled de uma malha de parâmetros de 1,5 bilhão para 256 por 256 Pixels. Em um teste, as pessoas avaliaram os resultados do GLIDE significativamente melhores do que os do DALL-E ou de outras redes.
GLIDE não produz resultados para determinadas entradas de texto, como gerar um carro com rodas quadradas. O modelo também é mais lento que as alternativas GAN e, portanto, não é adequado para aplicações em tempo real, escrevem os pesquisadores.
A OpenAI está adiando o grande modelo GLIDE por enquanto. No entanto, uma variante menor de 300 milhões de parâmetros do GLIDE está disponível gratuitamente. A equipe também treinou o modelo de IA publicado com um conjunto de dados altamente filtrado por motivos de segurança. A pequena variante GLIDE não pode gerar imagens de pessoas, por exemplo.
Mais informações e os dados estão disponíveis em Github do GLIDE . O GLIDE também pode ser testado através de um Google Colab .