Meta “Make-a-Video” transforma textos em vídeos curtos

  • Adicionadas informações sobre dados usados ​​para treinamento e resolução de vídeo.

Atualização, 1º de outubro de 2022:

O cientista da computação britânico Simon Willison, que recentemente descreveu um falha de segurança no GPT-3 analisou os dados de vídeo que o Meta usou para treinar a IA de conversão de texto em vídeo. De acordo com Willison , Meta usou cerca de dez milhões de clipes de visualização, completos com marcas d’água, da plataforma de ações Shutterstock. Willison torna os vídeos pesquisáveis em um banco de dados online .

Outros dez milhões de clipes vieram de 3,3 milhões de vídeos do YouTube de um conjunto de dados compilado pela Microsoft Research Asia, escreve Andy Baio em Ceroso . Os dois autores assumem que a Meta não teve o consentimento dos criadores do vídeo para usar os vídeos para treinamento de IA.

Baio critica explicitamente um “pipeline acadêmico-comercial” no qual conjuntos de dados no estilo “lavagem de dados” seriam criados sob pretensão acadêmica e lançados sob licença de código aberto. Esses conjuntos de dados seriam então usados ​​em pesquisas corporativas para treinar modelos de IA que mais tarde seriam usados ​​comercialmente.

Artigo original datado de 29 de setembro de 2022:

Com “Make-a-Video”, a Meta apresenta um novo sistema de IA que pode gerar novos vídeos a partir de texto, imagens ou vídeos.

Em junho, Meta introduziu “Make-a-Scene” um sistema de IA multimodal que pode gerar imagens a partir de esboços muito grosseiros descrevendo o layout da cena junto com uma descrição de texto.

Make-a-Video é o desenvolvimento desse sistema para imagens em movimento: além dos pares texto-imagem, a Meta treinou a IA para isso com dados de vídeo não rotulados.

“O sistema aprende como é o mundo a partir de dados de imagem de texto emparelhados e como o mundo se move a partir de imagens de vídeo sem texto associado”, escreve Meta.

A eliminação de dados de vídeo rotulados reduziu a sobrecarga de treinamento, de acordo com a Meta. A combinação com pares de texto-imagem permite que o sistema retenha a diversidade visual dos atuais modelos de imagem generativa e entenda como os objetos individuais se parecem e são referidos. A Meta usou conjuntos de dados de imagem e vídeo disponíveis publicamente.

Geração de vídeo via texto, imagem ou vídeo

Como os geradores de imagem AI, o Make-a-Video oferece suporte a diferentes estilos, como a capacidade de criar vídeos estilizados ou fotorrealistas. O exemplo a seguir mostra um vídeo criado com a entrada de texto “Um ursinho pinta um retrato” e alguns outros exemplos com estilos diferentes.

O sistema também pode processar imagens individuais como entrada e colocá-las em movimento ou criar movimento entre duas imagens semelhantes. Por exemplo, uma foto de família rígida se torna um vídeo de família (muito) curto.

A partir de vídeos existentes, o Make-a-Video pode gerar variantes que se aproximam do motivo e da animação do original, mas diferem significativamente nos detalhes.

Qualitativamente, os vídeos ainda apresentam fraquezas claramente visíveis, como desfoque ou distorções nos objetos. Mas os primeiros motivos criados com IAs de imagens generativas também apresentavam essas falhas. E todos nós sabemos como foi nos últimos anos. Nos testes iniciais do usuário, o Make-a-Video foi classificado três vezes melhor do que sistemas comparáveis ​​(quase existentes) tanto na representação de entrada de texto quanto na qualidade da imagem, de acordo com a Meta. A resolução nos vídeos avaliados foi de 256 x 256 Pixels de altura, a resolução máxima mencionada pelo Meta é de 768 x 768 Pixels.

A Meta planeja lançar uma demonstração pública assim que o sistema estiver mais seguro

Segundo a equipe de pesquisa da Meta, o Make-a-Video ainda não consegue fazer associações entre texto e fenômenos que só podem ser vistos em vídeos. Como exemplo, Meta cita a geração de uma pessoa acenando com a mão da esquerda para a direita ou vice-versa. Além disso, o sistema ainda não pode gerar cenas mais longas que contem histórias detalhadas e coerentes.

Como todos os grandes sistemas generativos de IA, o Make-a-Video também herdou vieses sociais e às vezes prejudiciais dos dados de treinamento e provavelmente os amplificaria, escrevem os pesquisadores. Meta disse que removeu conteúdo NSFW e termos tóxicos dos dados e emprega sistemas de filtragem. Ele também disse que todos os dados de treinamento estão disponíveis publicamente para máxima transparência. Todas as cenas geradas com o Make-a-Video carregam uma marca d’água, então fica sempre claro que é um vídeo gerado por IA.

A Meta anuncia uma demonstração pública, mas não dá um prazo. Atualmente, o modelo seria analisado e testado internamente para garantir que todas as etapas de uma possível liberação sejam “seguras e intencionais”.

Os interessados ​​podem manifestar a sua interesse em mais informações e acesso ao modelo aqui .