Sumário
O InstructPix2Pix mostra como os modelos generativos de IA podem modificar imagens por meio da descrição textual. O método foi rapidamente integrado às ferramentas existentes.
O chatbot lançado recentemente pela OpenAI, ChatGPT , supera os modelos mais antigos da empresa em quase todas as tarefas. Uma característica fundamental do bot é que ele segue as instruções de linguagem natural melhor do que os modelos anteriores e pode, por exemplo, reformular o texto gerado anteriormente ou corrigir erros no código.
Isso funciona porque o modelo subjacente “text-davinci-003” foi otimizado com feedback humano para seguir as instruções. O ChatGPT foi então treinado com feedback adicional.
GPT-3 e Stable Diffusion geram dados de treinamento sintéticos
Uma abordagem semelhante já foi aplicada ao processamento de imagens por pesquisadores da Universidade da Califórnia, em Berkeley. InstructPix2Pix descreve um método para processar imagens usando instruções de linguagem natural. Isso pode ser usado, por exemplo, para substituir objetos em imagens, alterar o estilo da imagem, alterar a configuração ou alterar o meio artístico.
Semelhante ao OpenAI, a equipe precisa de dados de treinamento de instruções executadas com sucesso. Mas, ao contrário do OpenAI, os pesquisadores estão construindo um conjunto de dados quase totalmente sintético.
A equipe usou uma combinação de GPT-3 e Difusão estável para gerar seus dados de treinamento: o modelo de linguagem OpenAI gerou uma descrição de uma imagem inicial, uma instrução para alterar certos detalhes da imagem inicial e uma descrição da imagem resultante.
Com essas duas descrições, a equipe gerou cerca de 100 imagens usando Stable Diffusion e o Método de modificação de imagem Prompt-to-Prompt que foram então reduzidos a duas variantes semelhantes usando CLIP que correspondiam às modificações desejadas.
A equipe então treinou o modelo InstructPix2Pix com o conjunto de dados completo gerado por IA. Ele contém mais de 450.000 pares de imagens de Stable Diffusion e as instruções de modificação GPT-3 correspondentes.
InstructPix2Pix mostra capacidades impressionantes apesar de ser treinado apenas com dados sintéticos
Embora O InstructPix2Pix foi treinado apenas com material gerado sinteticamente a equipe diz que pode processar facilmente todas as entradas e imagens do usuário e alterar as imagens em segundos.
Claro, InstructPix2Pix está longe de ser perfeito. Em particular, o modelo luta com instruções que alteram o número de objetos ou requerem compreensão espacial, dizem os pesquisadores. Para melhorar ainda mais o modelo, o feedback humano é uma importante área de trabalho futuro, disseram eles.
Experimente o InstructPix2Pix
Os pesquisadores disponibilizaram seu modelo em Abraçando o rosto, e as primeiras implementações para GUIs populares de Stable Diffusion, como NMKD ou Auto1111 já existe. A Playground AI também parece já ter disponibilizado o modelo. Você pode experimentá-lo lá após o registro gratuito.
Processamento de imagem AI no Photoshop
Além de ser uma referência atual para o potencial da IA, esses avanços científicos são de particular interesse de longo prazo para a indústria da fotografia.
A líder do setor, a Adobe, há muito usa aprendizado de máquina em seus produtos: em 2021, a empresa americana adicionou recursos ao Photoshop chamados “Filtros neurais” que permitem alterar a estação de uma paisagem com um clique, por exemplo.
Com modelos como as integrações InstructPix2Pix e Stable Diffusion para Photoshop já disponíveis, os fluxos de trabalho na indústria gráfica podem mudar fundamentalmente e rapidamente.