Sumário
O editor de vídeo AI do Google, Dreamix, pode modificar vídeos por solicitação ou gerar novos vídeos diretamente de uma única imagem.
Modelos generativos de IA que geram imagens ou vídeos a partir de descrições de texto fizeram grandes progressos no ano passado graças aos modelos de difusão. Depois de modelos de imagem como DALL-E 2 da OpenAI, Stable Diffusion e Imagen do Google, os gigantes da tecnologia Meta e Google exibiram modelos de vídeo como Make-A-Video ou Imagen Video alguns meses depois.
Mas enquanto novos métodos como Prompt-to-Prompt ou InstructPix2Pix, por exemplo, tornam a Stable Diffusion aplicável ao processamento de imagens, os modelos de vídeo até agora têm sido limitados à síntese.
Dreamix do Google é um editor de vídeo AI
Pesquisadores do Google agora estão demonstrando o Dreamix, um editor de vídeo AI baseado em difusão que pode modificar vídeos existentes usando descrições de texto ou gerar novos vídeos a partir de uma imagem inicial.
Para edição de vídeo, o Dreamix aumenta o ruído das imagens de origem e as passa para um modelo de difusão de vídeo, que gera novas imagens a partir das imagens de origem ruidosas com base em prompts de texto e as monta em um vídeo.
As imagens de origem fornecem, assim, uma espécie de esboço que captura, por exemplo, a forma de um animal ou seus movimentos, deixando espaço suficiente para mudanças.
Além de editar vídeos existentes, Dreamix também pode gerar novos vídeos. O Google mostra duas aplicações: A síntese de vídeo de uma única imagem primeiro gera imagens adicionais fazendo pequenas alterações, como na pose do objeto, e depois as aplica ao modelo de vídeo.
Além disso, o Dreamix também pode gerar vídeos centrados no assunto, onde várias imagens de, por exemplo, uma figura de brinquedo são usadas para criar um vídeo no qual a figura do jogo levanta pesos.
Google Dreamix estabelece as bases para um produto comercial
Nos vídeos exibidos pelo Google, a Dreamix mantém os temas dos templates de vídeo, transforma uma estrada em rio e faz com que ela interaja de forma realista com os pneus de um carro, ou cria um pequeno vídeo com um ursinho de pelúcia a partir de várias fotos dele.
O mais perceptível ao modificar vídeos existentes é a estabilidade temporal obtida com o modelo, que ainda é um problema com vídeos completamente novos, como os do Imagen Video.
Além da qualidade que precisa ser melhorada, o Google vê espaço para melhorias no poder de computação necessário para os modelos de difusão de vídeo usados, bem como nos dados de treinamento e nos modelos de avaliação usados.
O objetivo central do trabalho é “avançar na pesquisa de ferramentas que permitam aos usuários animar seu conteúdo pessoal”, diz o artigo.
Ao permitir que eles usem seus próprios vídeos e imagens, os usuários do Dreamix podem alinhar melhor o conteúdo gerado por IA com suas intenções, apesar dos vieses presentes nos modelos de difusão, de acordo com o Google. Por outro lado, “partes maliciosas podem tentar usar vídeos editados para enganar os espectadores ou praticar assédio direcionado”.
Outros exemplos podem ser encontrados no Dreamix página do projeto. Atualmente, o Google não planeja lançar o modelo.