A startup de IA Runway integra o Stable Diffusion para editor de texto para vídeo

O Startup Runway mostra um impressionante editor de vídeo AI controlado por entrada de texto. O editor está usando o AI Stable Diffusion de código aberto.

A startup Runway, sediada em Nova York, oferece um editor online que visa tornar a criação de conteúdo acessível a todos. Para isso, a empresa conta com automação por meio de inteligência artificial.

Atualmente, a IA pode, por exemplo, substituir planos de fundo por uma tela verde digital, ajustar o estilo ou remover objetos de um vídeo. A empresa está incorporando rapidamente novas ferramentas para criação de conteúdo com suporte de IA em sua plataforma.

Vídeo: RunwayML

Pista levantou mais de 45,5 milhões em financiamento de investidores desde sua fundação em 2018, incluindo 35 milhões apenas em dezembro de 2021. A crescente maturidade dos aplicativos de IA para imagens e vídeos pode ter sido útil nas conversas com investidores.

Runway mostra novo recurso ‘text-to-video’

A startup de IA oferece toda uma gama de diferentes modelos de IA para diferentes recursos em seu back-end, incluindo modelos GAN para gerar imagens que podem ser usadas como plano de fundo em um vídeo, por exemplo.

Recentemente, a Runway começou a implementar Difusão estável , um poderoso modelo de código aberto para imagens. A Runway já estava ativamente envolvida na criação da Stable Diffusion: O membro da equipe Patrick Esser foi pesquisador na Universidade de Heidelberg antes de ingressar na Runway e esteve envolvido no desenvolvimento do VQGAN e da Latent Diffusion.

Em um novo clipe promocional, Runway agora mostra um impressionante controle de texto do editor de vídeo.

Usando comandos de texto simples, os usuários podem importar videoclipes, gerar imagens, alterar estilos, cortar caracteres ou ativar ferramentas.

O recurso de texto para vídeo é, na verdade, um controle de texto

Runway comercializa o novo recurso como texto para vídeo uma descrição adequada que pode, no entanto, ser confusa: no jargão técnico, sistemas de IA como DALL-E 2 , meio da jornada ou Difusão estável são chamados de sistemas de texto para imagem. Eles recebem entrada de texto e geram uma imagem correspondente.

No entanto, o recurso de texto para vídeo do Runway controla as ferramentas de vídeo existentes por meio de entrada de texto. Não é um modelo de vídeo generativo que produz vídeo a partir de entrada de texto.

Esses sistemas também existem: a Deepmind mostrou recentemente sua modelo transframer , que cria videoclipes de 30 segundos com base em texto. Mas eles ainda estão muito distantes em qualidade dos modelos de imagem agora bastante maduros.

No entanto, o fluxo de trabalho de vários criativos será bastante simplificado pelo novo recurso da Runway. Também mostra que a aposta da startup na produção de vídeo simples e baseada em IA está funcionando.