O “MagicMix” baseado em Stable Diffusion da Bytedance transforma cães em cafeteiras

A empresa TikTok Bytedance demonstra um novo método de geração de imagens que pode combinar dois conceitos semânticos em um novo.

“Mistura semântica” é o que a equipe de pesquisa da Bytedance chama de processo de instruir um modelo de difusão para misturar dois conceitos semânticos em um novo: por exemplo, uma melancia e uma lâmpada se tornam uma lâmpada na forma de uma melancia. Um tigre e um coelho se tornam um coelho com listras de tigre.

Os pesquisadores descrevem a mistura semântica como um problema difícil, porque mesmo os humanos nem sempre podem dizer exatamente qual seria o resultado dessa mistura.

Lâmpadas de melão e coelhos tigre

Ao contrário da transferência de estilo, na qual o conteúdo da imagem permanece inalterado e apenas o estilo é adaptado (um gráfico renderizado torna-se um gráfico desenhado, por exemplo), a mistura semântica cria novos motivos. O layout e a geometria da imagem original são preservados, o que contribui para maior precisão e estabilidade na geração da imagem.

A equipe Bytedance usa Stable Diffusion 1.4 como a imagem subjacente AI para o processo MagicMix. O modelo de difusão, que extrai imagens do ruído, primeiro gera o layout e a forma de uma imagem. Somente mais tarde no processo de remoção de ruídos é que o conceito semântico segue.

O MagicMix tira proveito dessa abordagem em duas etapas: o Bytedance também determina primeiro o layout aproximado do assunto com base em uma imagem ou texto. Em seguida, ele muda o prompt para o segundo conceito semântico durante a geração. Nenhuma máscara espacial ou reaprendizagem é necessária.

A geração de imagens AI torna-se mais flexível

O processo até funciona ao contrário: o MagicMix pode remover conceitos semânticos das imagens. No entanto, os resultados são bastante bizarros em comparação com a mistura de conceitos. Por exemplo, uma imagem de gato sem um conceito de gato torna-se um estranho camaleão. Uma foto de cachorro sem cachorro se torna um gato parecido com uma esfinge.

1675244508 827 O MagicMix baseado em difusao estavel da Bytedance transforma caes

Misturar raças de animais é interessante. O já mencionado coelho tigre é um exemplo sofisticado, mas também pode ser feito de maneiras mais realistas, como cruzar raças de cães. Aqui podemos ver que os conceitos misturados podem refletir a realidade. Também são possíveis motivos fictícios, que os criativos podem usar como inspiração para seus trabalhos.

O MagicMix baseado em difusao estavel da Bytedance transforma caes
1675244509 126 O MagicMix baseado em difusao estavel da Bytedance transforma caes

Um dos pontos fortes do MagicMix, sua capacidade de manter o layout, também é um ponto fraco: o método falha quando mistura conceitos de conteúdo sem semelhança na forma. Misture uma van com um gato e, em vez de um gato com pneus ou uma van com bigodes, você terá um gato em uma van ou … bem.

Apesar dessa limitação, a equipe da Bytedance está convencida de que o MagicMix criará mais oportunidades e escopo para o uso de sistemas de IA de imagem.

Graças à forte capacidade de gerar novos conceitos, nosso MagicMix suporta uma grande variedade de aplicações criativas, incluindo transferência de estilo semântico (por exemplo, gerar um novo sinal dado um layout de sinal de referência e um determinado conteúdo desejado), síntese de novos objetos (por exemplo, gerar uma lâmpada que se parece com uma fatia de melancia), mistura de raças (por exemplo, gerar uma nova espécie pela mistura de “coelho” e “tigre”) e remoção de conceito (por exemplo, sintetizar um objeto não laranja que se parece com uma laranja). Embora a solução seja simples, ela abre uma nova direção no campo da computação gráfica e oferece novas possibilidades de projetos auxiliados por IA para artistas em um amplo campo, como entretenimento, cinematografia e efeitos CG.

Trecho do papel

Como o MagicMix é baseado em Stable Diffusion, que por sua vez é treinado com um conjunto de dados LAION entre outros, a equipe da Bytedance aponta para “vieses sociais e culturais” na geração de imagens.