Sumário
Modelos generativos de IA, como Stable Diffusion, podem gerar imagens, mas têm problemas para editá-las. O Google mostra um novo método que permite mais controle.
Com OpenAIs DALL-E 2 , meio da jornada ou Difusão estável , as partes interessadas têm toda uma gama de modelos generativos de conversão de texto em imagem para escolher. Todos os modelos produzem imagens verossímeis e podem ser controlados via engenharia imediata . Em muitos casos, portanto, a escolha da oferta é principalmente uma questão de preferência pessoal, em alguns casos uma questão de requisitos específicos que um modelo pode atender melhor do que outro.
Além da engenharia imediata, existem outros recursos que permitem maior controle sobre o resultado desejado: pintura externa, variações ou mascaramento de partes de uma imagem. O DALL-E 2 da OpenAI foi pioneiro aqui com a função de edição, onde áreas de uma imagem podem ser mascaradas e depois regeneradas. Soluções semelhantes agora também existem para Stable Diffusion.
O Prompt-to-Prompt do Google permite controle em nível de texto
No entanto, a edição por mascaramento tem limitações, pois permite apenas alterações bastante grosseiras na edição – ou requer uma combinação elaborada de mascaramento extremamente preciso e várias alterações imediatas.
Pesquisadores do Google mostram uma alternativa: o Prompt-to-Prompt funciona sem mascaramento e, em vez disso, permite o controle por meio de alterações no prompt original. A equipe acessa os mapas de atenção cruzada no modelo generativo de IA para essa finalidade. Estes representam o link entre o prompt de texto e as imagens geradas e contêm informações semânticas relevantes para uma geração.
A manipulação desses mapas de atenção cruzada pode, assim, controlar o processo de difusão do modelo, do qual os autores apresentam diversas variantes. Um deles permite alterar uma única palavra do prompt de texto, mantendo o restante da cena intacta, o que, por exemplo, troca um objeto por outro. Um segundo método permite que palavras sejam adicionadas, adicionando objetos ou outros elementos visuais a uma cena de outra forma imutável. Um terceiro método pode ajustar o peso de palavras individuais, alterando uma característica de uma imagem, como o tamanho de um grupo de pessoas ou a maciez de um ursinho de pelúcia.
Prompt-to-Prompt é fácil de usar para Stable Diffusion
De acordo com o Google, o Prompt-to-Prompt não requer ajuste fino ou outras otimizações e pode ser aplicado diretamente a modelos existentes para maior controle. Em seu trabalho, os pesquisadores testam o método com difusão latente e Stable Diffusion. Espera-se que o Prompt-to-Prompt seja executado em placas de vídeo com pelo menos 12 gigabytes de VRAM, de acordo com o Google.
Este trabalho é um primeiro passo para fornecer aos usuários meios simples e intuitivos para editar imagens e navegar por um espaço semântico, textual, que exibe mudanças incrementais após cada etapa, em vez de produzir uma imagem do zero após cada manipulação de texto.
Do papel.
YouTuber Nerdy Rodent mostra como Prompt-to-Prompt pode ser usado para Stable Diffusion em seu tutorial.
Mais informações sobre Prompt-to-Prompt e o código estão disponíveis em GitHub .