Sumário
O ControlNet melhora significativamente o controle sobre os recursos imagem a imagem do Stable Diffusion.
A Stable Diffusion pode gerar imagens a partir de texto, mas também pode usar imagens como modelos para geração posterior. Esse pipeline de imagem para imagem geralmente é usado para melhorar as imagens geradas ou para criar novas imagens com base em um modelo.
No entanto, o controle sobre esse processo é bastante limitado, embora o Stable Diffusion 2.0 tenha introduzido a capacidade de usar informações de profundidade de uma imagem como modelo. No entanto, a versão 1.5 mais antiga, que ainda é amplamente utilizada, por exemplo, devido ao grande número de modelos personalizados, não oferece suporte a esse método.
ControlNet traz ajuste fino para GPUs pequenas
Pesquisadores da Universidade de Stanford apresentaram o ControlNet, uma “estrutura de rede neural para controlar modelos de difusão adicionando restrições adicionais”.
O ControlNet copia os pesos de cada bloco de Stable Diffusion em uma variante treinável e uma variante bloqueada. A variante treinável pode aprender novas condições para a síntese de imagens por meio do ajuste fino com pequenos conjuntos de dados, enquanto a variante bloqueada retém os recursos do modelo de difusão pronto para produção.
“Nenhuma camada é treinada do zero. Você ainda está ajustando. Seu modelo original está seguro”, escrevem os pesquisadores. Dizem que isso torna o treinamento possível mesmo em uma GPU com oito gigabytes de memória gráfica.
Pesquisadores publicam modelos ControlNet para Stable Diffusion
A equipe está usando o ControlNet para publicar um conjunto de modelos pré-treinados que fornecem melhor controle sobre o pipeline de imagem para imagem. Isso inclui modelos para detecção de borda ou linha, detecção de limite, informações de profundidade, processamento de esboço e pose humana ou detecção de mapa semântico.
Todos os modelos ControlNet podem ser usados com Stable Diffusion e fornecem um controle muito melhor sobre a IA generativa. A equipe mostra exemplos de variantes de pessoas com poses constantes, diferentes imagens de interiores com base na estrutura espacial do modelo ou variantes da imagem de um pássaro.
Existem ferramentas de controle semelhantes para GANs, e a ControlNet agora traz as ferramentas para os modelos de difusão atualmente muito mais poderosos. Mais exemplos, o código e os modelos estão disponíveis no ControlNet GitHub .