Sumário
A mais recente IA generativa do Google, Imagen Video, cria vídeos curtos com base na entrada de texto. Ele atinge um novo padrão de qualidade em resolução e taxa de quadros.
Um pouco depois Meta com Make-a-Video o Google apresenta seu próprio sistema de conversão de texto em vídeo: baseia-se na técnica de difusão e em outros insights do imagem AI Imagen a IA de imagem mais poderosa apresentada publicamente até o momento, mas usa uma configuração mais complexa baseada em uma “cascata de modelos de difusão de vídeo”, de acordo com a equipe de pesquisa do Google.
Comparado ao modelo de imagem Imagen, o modelo de vídeo Imagen foi estendido para o domínio temporal e treinado com imagens e vídeos ao mesmo tempo. Os pontos fortes do modelo de imagem Imagen foram mantidos, de acordo com o Google. Para processamento de texto, o Google contou com uma grande equipe pré-treinada Modelo de linguagem do transformador (T5-XXL) como aconteceu com o modelo de imagem Imagen.
O Imagen Video atinge resolução HD e taxas de quadros suaves
A característica marcante do Imagen Video é sua alta resolução combinada com uma taxa de quadros relativamente alta: o sistema atinge o padrão HD com 1280 x 768 Pixels a 24 quadros por segundo. Vídeos meta gerados usando Make-a-Video para teste inicial com uma resolução máxima de 768 x 768 vídeos em uma taxa de quadros mais baixa.
Imagen Video, como sistemas de imagem generativa, domina vários estilos artísticos – de Pixel art a Van Gogh – tem uma compreensão de objetos 3D e pode soletrar palavras corretamente, de acordo com o Google. O último recurso anteriormente só era possível com a imagem Imagen.
O sistema também oferece um “alto grau de controlabilidade e conhecimento de mundo” e pode gerar vídeos com muita precisão ao comando de texto, escreve a equipe de pesquisa – e demonstra.
Prompt: “Brotos na forma de texto ‘Imagen Video’ saindo de um livro de conto de fadas.”
Saída do modelo: pic.twitter.com/FVgnM0UAAn– Durk Kingma (@dpkingma) 5 de outubro de 2022
Tal como acontece com o make-a-video da Meta, no entanto, a duração dos vídeos é limitada: a saída está atualmente em torno de cinco segundos no máximo. Portanto, o Imagen Video tende a gerar animações mais longas do que vídeos – mas uma solução para isso também está no horizonte.
Vídeos longos de IA: Phenaki também vem do Google
O fato de que a IA também pode gerar vídeos longos foi demonstrado na semana passada pelo sistema de IA de texto para vídeo Phenaki , que pode gerar cenas inteiras da história a partir de prompts que se complementam. Em uma demonstração, a equipe de pesquisa da Phenaki exibiu um vídeo de aproximadamente dois minutos gerado ao longo de um pequeno script.
Na época do lançamento de Phenaki, não estava claro quem estava por trás do jornal por motivos de revisão. Agora, o principal autor do vídeo Imagen, Jonathan Ho, revela no Twitter que Phenaki também é um projeto do Google.
O próximo passo, segundo Ho, é combinar a qualidade de imagem do Imagen Video com a coerência e a duração do vídeo do Phenaki.
Imagen Video não será lançado por enquanto
Assim como o Imagen para imagens, o Google não está lançando o modelo no momento. A razão é a mesma: o Imagen Video foi treinado com “dados problemáticos” em parte.
Embora os testes internos tenham filtrado com sucesso muito conteúdo explícito e violento, os preconceitos e estereótipos sociais ainda eram replicados. É um desafio reconhecê-los e filtrá-los, escreve a equipe de pesquisa.
Com um raciocínio semelhante, a Meta também se absteve de lançar o Make-a-Video por enquanto, mas pelo menos ofereceu a perspectiva de uma demonstração em um futuro próximo.