Sumário
Nos modelos atuais, a única maneira de descrever onde um objeto deve ser colocado em uma imagem AI é com texto – com sucesso apenas moderado. Os pesquisadores agora apresentam um modelo que usa caixas delimitadoras.
A geração de imagens de IA evoluiu rapidamente de visualizações difusas para resultados muito concretos, às vezes até fotorrealistas. Quanto mais detalhada a especificação, melhor a geração pode ser influenciada. Embora os detalhes da composição da imagem possam ser descritos com texto, como onde um objeto deve ser colocado, esses detalhes geralmente são implementados apenas moderadamente. Um novo método pode tornar isso mais fácil no futuro.
Cientistas da University of Wisconsin-Madison, da Columbia University e da Microsoft apresentaram o GLIGEN, que significa Grounded-Language-to-Image Generation. Com algumas exceções, como Difusão estável 2.0 , os modelos de imagem só podem ser controlados por texto. GLIGEN, por outro lado, usa as chamadas “entradas de aterramento”.
Informações posicionais por meio de caixas ou pontos-chave
“Aterramento” aqui se refere à capacidade de um modelo de incorporar informações visuais. No contexto do GLIGEN, isso significa que o modelo AI usa informações visuais, como a posição e o tamanho das caixas delimitadoras, além da entrada de texto.
As caixas podem se sobrepor, receber mais detalhes usando Img2Img e adicionar imagens existentes usando pintura interna. Ao criar imagens de pessoas, os pontos-chave também podem ser definidos para refletir a postura da pessoa e orientar a síntese da imagem de acordo.
Camada de treinamento “como Lego” sobre o modelo.
Para o treinamento, o GLIGEN congela todos os pesos do modelo de imagem subjacente e treina as informações de aterramento por meio de pares de imagem de caixa de texto em novas camadas. Dessa forma, os pesquisadores garantem que as capacidades do modelo pré-treinado sejam preservadas.
Em comparação com outras formas de usar um modelo de difusão pré-treinado, como o ajuste fino do modelo completo, nossas camadas moduladas recém-adicionadas são pré-treinadas continuamente em grandes dados de aterramento (caixa de texto de imagem) e são mais econômicas. Assim como o Lego, é possível conectar e reproduzir diferentes camadas treinadas para habilitar diferentes novos recursos.
Li et ai.
GLIGEN é semelhante ao recentemente lançado ControlNet , que, no entanto, vem com recursos de controle adicionais. Isso permite que os usuários tenham muito mais controle sobre a saída dos geradores de imagem AI, permitindo que gerem imagens exatamente conforme desejado.
Você pode experimentar o GLIGEN gratuitamente no navegador em Abraçando o rosto, mas ainda não se tornou um aplicativo para um modelo de imagem como Stable Diffusion.