Sumário
Um novo método aprende prompts de uma imagem, que pode ser usado para reproduzir conceitos semelhantes em Stable Diffusion.
Se DALL-E 2 , meio da jornada ou Difusão estável : Todos os modelos de imagem generativa atuais são controlados por entrada de texto, os chamados prompts. Uma vez que o resultado dos modelos de IA generativos depende fortemente da formulação desses prompts, a “engenharia de prompts” tornou-se uma disciplina por direito próprio na comunidade de IA. O objetivo da engenharia de prompts é encontrar prompts que produzam resultados repetíveis, que possam ser misturados com outros prompts e que também funcionem idealmente para outros modelos.
Além desses prompts de texto, os modelos AI também podem ser controlados pelos chamados “soft prompts”. Estas são incorporações de texto derivadas automaticamente da rede, ou seja, valores numéricos que não correspondem diretamente aos termos humanos. Como os prompts de software são derivados diretamente da rede, eles produzem resultados muito precisos para determinadas tarefas de síntese, mas não podem ser aplicados a outros modelos.
“Prompts rígidos aprendidos” requerem muito menos tokens
Em um novo artigo intitulado “Hard Prompts Made Easy” (PEZ), pesquisadores da Universidade de Maryland e da Universidade de Nova York mostram como combinar a precisão dos prompts suaves com a portabilidade e mixabilidade de prompts de texto – ou hard prompts, como o papel os chama.
Encontrar prompts difíceis é uma “alquimia especial” que requer um alto grau de intuição ou muita tentativa e erro, diz o jornal. Os prompts suaves, por outro lado, não são legíveis por humanos e são uma ciência matemática.
Com o PEZ, por outro lado, a equipe apresenta um método que aprende automaticamente os prompts rígidos de uma imagem de entrada. O PEZ otimiza a precisão dos prompts aprendidos durante o processo de aprendizado usando o CLIP. “Os prompts hard aprendidos combinam a facilidade e a automação dos prompts soft com a portabilidade, flexibilidade e simplicidade dos prompts hard”, afirma o artigo.
O resultado: PEZ é uma ferramenta para gerar prompts de texto que produz de forma confiável estilos de imagem específicos, objetos e aparências sem a necessidade de “alquimia” complexa, e está no mesmo nível de ferramentas de geração de prompt de software altamente especializadas, afirmam. A equipe também usa “destilação imediata” para reduzir o número de fichas necessárias.
De acordo com os pesquisadores, os prompts rígidos aprendidos podem ser bem aplicados a outros modelos.
Método testado em vários conjuntos de dados
A equipe mostra exemplos de prompts em quatro conjuntos de dados de treinamento, ou seja, LAION-5B (misto), Celeb-A (retratos de celebridades), MS COCO (fotografia) e Lexica.art (imagens AI). Para gerar as imagens AI, eles usaram Stable Diffusion.
Embora existam diferenças entre as imagens originais e geradas, os prompts rígidos aprendidos produzem variações claramente discerníveis dos objetos, composições ou estilos originais. No futuro, os pesquisadores esperam fazer mais melhorias na descoberta e controle automatizados de modelos de IA generativos, como a Stable Diffusion.
Embora nosso trabalho progrida em direção à otimização imediata, o entendimento da comunidade sobre o espaço de incorporação do modelo de linguagem ainda está em sua infância, e uma compreensão mais profunda da geometria do espaço de incorporação provavelmente permitirá uma otimização imediata ainda mais forte no futuro.
do papel
No entanto, a busca por prompts tão eficientes pode ser usada no futuro para reproduzir imagens em modelos de IA. Esforços recentes em Reprodução AI de imagens de treinamento já mostraram que os modelos de difusão têm um problema de reprodução.
A equipe também mostra que PEZ pode ser usado para descobrir prompts de texto para grandes modelos de linguagem, por exemplo, para torná-los mais adequados para tarefas de classificação.
Mais informações e o código estão disponíveis em GitHub .