Phenaki: IA de conversão de texto em vídeo pode gerar vídeos de um minuto

Um modelo de IA chamado Phenaki pode gerar minutos de vídeo coerente com base em entrada de texto sequencial detalhada.

No mesmo dia que “Faça um vídeo” do Meta um segundo sistema de conversão de texto em vídeo está circulando online: chama-se Phenaki e, segundo os autores, pode gerar vídeos conectados de minutos com base em comandos de texto sequencial.

Os autores são anônimos porque o trabalho ainda está em processo de revisão para a conferência AI Conferência Internacional sobre Representações de Aprendizagem (ICLR).

correlações temporais

Ao contrário das imagens geradas por IA, os prompts únicos não são suficientes para vídeos gerados por IA, dizem os autores. Um sistema de vídeo AI deve ser condicionado a vários prompts inter-relacionados – uma história que descreve eventos ao longo do tempo.

Os pesquisadores, portanto, desenvolveram um modelo baseado em transformador que comprime vídeos em pequenas representações de tokens discretos. Este tokenizador usa atenção causal dependente do tempo para que as sequências de vídeo possam ser agrupadas ao longo de uma sequência temporal de eventos descritos em um prompt.

“Tratamos os vídeos como uma sequência temporal de imagens (em vez de uma única sequência, nota do editor)o que diminui substancialmente o número de tokens de vídeo devido à redundância na geração de vídeo e resulta em um custo de treinamento muito menor”, ​​escreve a equipe de pesquisa.

Aprendizagem simultânea a partir de pares imagem-texto e vídeo-texto

Assim como os grandes sistemas de imagem, o modelo multimodal foi treinado principalmente com pares texto-imagem. Além disso, os pesquisadores treinaram Phenaki com pares curtos de vídeo e texto de 1,4 segundo a oito quadros por segundo.

“Demonstramos como o treinamento conjunto em um grande corpus de pares de imagem-texto, bem como um número menor de exemplos de vídeo-texto, pode resultar em generalização além do que está disponível nos conjuntos de dados de vídeo”, escrevem os pesquisadores.

O sistema pode até processar prompts que representam uma nova composição de conceitos ou animar imagens pré-existentes com base na entrada de texto, de acordo com os pesquisadores.

Como exemplo de um vídeo mais longo, a equipe mostra o seguinte clipe. Foi gerado usando um comando de texto detalhado que descreve cena por cena.

Muito tráfego na cidade futurista. Uma nave alienígena chega à cidade futurista. A câmera entra na nave alienígena. A câmera avança até mostrar um astronauta na sala azul. O astronauta está digitando no teclado. A câmera se afasta do astronauta. O astronauta deixa o teclado e caminha para a esquerda. O astronauta larga o teclado e vai embora. A câmera se move além do astronauta e olha para a tela. A tela atrás do astronauta exibe peixes nadando no mar. Crash zoom no peixe azul. Seguimos o peixe azul enquanto ele nada no oceano escuro. A câmera aponta para o céu através da água. O oceano e o litoral de uma cidade futurista. Crash zoom em direção a um arranha-céu futurista. A câmera dá um zoom em uma das muitas janelas. Estamos em uma sala de escritório com mesas vazias. Um leão corre em cima das mesas dos escritórios. A câmera dá zoom no rosto do leão, dentro do escritório. Zoom out para o leão vestindo um terno escuro em uma sala de escritório. O leão vestindo olha para a câmera e sorri. A câmera se afasta lentamente para o exterior do arranha-céu. Timelapse do pôr do sol na cidade moderna.

Vídeo: Demonstração de Phenaki

Nenhuma publicação ainda devido a preocupações éticas

Segundo os autores, Phenaki foi treinado com vários conjuntos de dados, incluindo o conjunto de dados LAION-400M, que contém conteúdo violento, sangrento e pornográfico, mas melhorou a qualidade da geração. Uma versão atual do Phenaki usa conjuntos de dados que minimizam “tais problemas”.

No entanto, a equipe não deseja publicar os modelos treinados para Phenaki, o código, os dados ou uma demonstração interativa neste momento por razões éticas. Antes de um possível lançamento, ele primeiro quer entender melhor os dados, entradas e saídas filtradas. Ele também deseja medir o viés contido nos vídeos gerados para minimizar o viés em cada etapa do desenvolvimento do modelo (seleção de dados, treinamento, filtragem).