Texto para vídeo HD coerente: Google funde Phenaki e Imagen Video

Recentemente, o Google introduziu dois modelos de texto para vídeo, que agora está combinando em uma nova abordagem. O resultado são vídeos mais longos e de alta resolução gerados exclusivamente a partir de texto.

Primeiro, o Google exibiu Vídeo de imagem um sistema de texto para vídeo baseado no IA de imagem de imagem que pode produzir clipes curtos com base na entrada de texto. A compreensão da linguagem de um grande modelo de linguagem (T5-XXL) é fundamental para a arquitetura. Vídeo de imagem foi treinado simultaneamente com imagens e vídeos.

Ao mesmo tempo, outra equipe do Google demonstrou fenaki , uma IA de conversão de texto em vídeo que também é treinada com vídeos e imagens. Ele pode gerar vídeos de um minuto com base em texto longo. o fenaki A equipe usa uma arquitetura de transformador com atenção causal dependente do tempo que pode agrupar eventos ao longo de uma sequência temporal descrita em uma série de prompts sequenciais.

Google funde Phenaki e Imagen Video para criar longos vídeos HD a partir de texto

A equipe de pesquisa do Google já havia insinuado a possibilidade de uma fusão com a Imagen Video durante a apresentação da Phenaki. Isso já aconteceu e o Google está apresentando o resultado como parte de uma apresentação de projetos atuais de IA.

Primeiro, Phenaki gera um vídeo coerente com base em prompts sequenciais. O Imagen Video então pega a saída do Phenaki (prompt e vídeo) e aumenta a escala. Comparado a outros sistemas de super-resolução, um ponto forte do Imagen Video é sua capacidade de incorporar texto no módulo de super-resolução, escreve o Google.

Alonso Martinez, um dos principais pesquisadores de IA do Google que está envolvido no desenvolvimento de Phenaki, acredita que nas taxas atuais de progresso, a tecnologia poderia ser usada para produzir um grande programa de televisão em menos de dois anos.

A tecnologia ainda está em sua infância, de acordo com o Google. Você pode assistir a uma apresentação da combinação de Phenaki e Imagen Video no vídeo a seguir a partir do minuto 28:25.

Imagen chega à cozinha de IA do Google

Espera-se que os primeiros sistemas de conversão de texto em imagem do Google estejam disponíveis em breve no aplicativo de teste AI Kitchen (Android / iOS ). Com a IA de imagem Imagen o Google apresentou recentemente o que é provavelmente o modelo mais poderoso desse tipo, mas não o publicou até agora, principalmente por razões éticas.

O lançamento no aplicativo de cozinha de teste pode indicar uma mudança de estratégia aqui, o que faria sentido do ponto de vista econômico, considerando os sucessos do DALL-E 2, meio da jornada e Difusão estável em um mercado emergente.