Sumário
O Startup Runway mostra um impressionante editor de vídeo AI controlado por entrada de texto. O editor está usando o AI Stable Diffusion de código aberto.
A startup Runway, sediada em Nova York, oferece um editor online que visa tornar a criação de conteúdo acessível a todos. Para isso, a empresa conta com automação por meio de inteligência artificial.
Atualmente, a IA pode, por exemplo, substituir planos de fundo por uma tela verde digital, ajustar o estilo ou remover objetos de um vídeo. A empresa está incorporando rapidamente novas ferramentas para criação de conteúdo com suporte de IA em sua plataforma.
Pista levantou mais de 45,5 milhões em financiamento de investidores desde sua fundação em 2018, incluindo 35 milhões apenas em dezembro de 2021. A crescente maturidade dos aplicativos de IA para imagens e vídeos pode ter sido útil nas conversas com investidores.
Runway mostra novo recurso ‘text-to-video’
A startup de IA oferece toda uma gama de diferentes modelos de IA para diferentes recursos em seu back-end, incluindo modelos GAN para gerar imagens que podem ser usadas como plano de fundo em um vídeo, por exemplo.
Recentemente, a Runway começou a implementar Difusão estável , um poderoso modelo de código aberto para imagens. A Runway já estava ativamente envolvida na criação da Stable Diffusion: O membro da equipe Patrick Esser foi pesquisador na Universidade de Heidelberg antes de ingressar na Runway e esteve envolvido no desenvolvimento do VQGAN e da Latent Diffusion.
Em um novo clipe promocional, Runway agora mostra um impressionante controle de texto do editor de vídeo.
Usando comandos de texto simples, os usuários podem importar videoclipes, gerar imagens, alterar estilos, cortar caracteres ou ativar ferramentas.
O recurso de texto para vídeo é, na verdade, um controle de texto
Runway comercializa o novo recurso como texto para vídeo uma descrição adequada que pode, no entanto, ser confusa: no jargão técnico, sistemas de IA como DALL-E 2 , meio da jornada ou Difusão estável são chamados de sistemas de texto para imagem. Eles recebem entrada de texto e geram uma imagem correspondente.
No entanto, o recurso de texto para vídeo do Runway controla as ferramentas de vídeo existentes por meio de entrada de texto. Não é um modelo de vídeo generativo que produz vídeo a partir de entrada de texto.
Esses sistemas também existem: a Deepmind mostrou recentemente sua modelo transframer , que cria videoclipes de 30 segundos com base em texto. Mas eles ainda estão muito distantes em qualidade dos modelos de imagem agora bastante maduros.
O Transframer é uma estrutura generativa de uso geral que pode lidar com muitas tarefas de imagem e vídeo em um ambiente probabilístico. Um novo trabalho mostra que ele se destaca na previsão de vídeo e na síntese de visualizações e pode gerar vídeos de 30 segundos a partir de uma única imagem: https://t.co/wX3nrrYEEa 1/ pic.twitter.com/gQk6f9nZyg
— DeepMind (@DeepMind) 15 de agosto de 2022
No entanto, o fluxo de trabalho de vários criativos será bastante simplificado pelo novo recurso da Runway. Também mostra que a aposta da startup na produção de vídeo simples e baseada em IA está funcionando.