O ControlNet oferece mais controle sobre a criatividade do Stable Diffusions

Sumário

ControlNet traz ajuste fino para GPUs pequenas
Pesquisadores publicam modelos ControlNet para Stable Diffusion

O ControlNet melhora significativamente o controle sobre os recursos imagem a imagem do Stable Diffusion.

A Stable Diffusion pode gerar imagens a partir de texto, mas também pode usar imagens como modelos para geração posterior. Esse pipeline de imagem para imagem geralmente é usado para melhorar as imagens geradas ou para criar novas imagens com base em um modelo.

No entanto, o controle sobre esse processo é bastante limitado, embora o Stable Diffusion 2.0 tenha introduzido a capacidade de usar informações de profundidade de uma imagem como modelo. No entanto, a versão 1.5 mais antiga, que ainda é amplamente utilizada, por exemplo, devido ao grande número de modelos personalizados, não oferece suporte a esse método.

ControlNet traz ajuste fino para GPUs pequenas

Pesquisadores da Universidade de Stanford apresentaram o ControlNet, uma “estrutura de rede neural para controlar modelos de difusão adicionando restrições adicionais”.

O ControlNet copia os pesos de cada bloco de Stable Diffusion em uma variante treinável e uma variante bloqueada. A variante treinável pode aprender novas condições para a síntese de imagens por meio do ajuste fino com pequenos conjuntos de dados, enquanto a variante bloqueada retém os recursos do modelo de difusão pronto para produção.

“Nenhuma camada é treinada do zero. Você ainda está ajustando. Seu modelo original está seguro”, escrevem os pesquisadores. Dizem que isso torna o treinamento possível mesmo em uma GPU com oito gigabytes de memória gráfica.

Pesquisadores publicam modelos ControlNet para Stable Diffusion

A equipe está usando o ControlNet para publicar um conjunto de modelos pré-treinados que fornecem melhor controle sobre o pipeline de imagem para imagem. Isso inclui modelos para detecção de borda ou linha, detecção de limite, informações de profundidade, processamento de esboço e pose humana ou detecção de mapa semântico.

Sumário

ControlNet traz ajuste fino para GPUs pequenas

Pesquisadores publicam modelos ControlNet para Stable Diffusion

Artigos Relacionados