Deepmind: Transframer AI sonha com vídeo de 30 segundos a partir de uma imagem

A nova IA de vídeo da Deepmind, Transframer, pode lidar com uma ampla gama de tarefas de imagem e vídeo – e criar vídeos de 30 segundos a partir de um único quadro.

Os sistemas generativos de IA passaram de laboratórios de pesquisa para aplicações industriais e de consumo nos últimos anos, iniciados pelo modelo de linguagem em larga escala da OpenAI GPT-3 . Então, em abril passado, a empresa introduziu o sistema de imagem DALL-E 2, que indiretamente gerou alternativas como meio da jornada e Difusão estável .

A irmã do Google, Deepmind, agora está exibindo o Transframer, um modelo de IA que pode oferecer um vislumbre da próxima geração de modelos de IA generativos.

Deepmind Transframer: Um modelo com muitas tarefas

O Transframer da Deepmind é uma estrutura de previsão visual que pode resolver oito tarefas de modelagem e processamento de imagens ao mesmo tempo, como estimativa de profundidade, segmentação de instância, reconhecimento de objetos ou previsão de vídeo.

O Transframer usa um conjunto de imagens de contexto com anotações associadas, como carimbos de data/hora ou pontos de vista da câmera, e processa a consulta de uma imagem com base nelas.

O modelo processa imagens compactadas usando uma U-net cujas saídas são passadas para um decodificador DCTransfromer. Especificamente, as imagens são compactadas usando DCT (transformada discreta de cosseno ); DCT também é usado no método de compressão JPEG. O DCTransformer é especializado em tokens DCT.

Transframer gera novos ângulos e vídeos inteiros

Além das tarefas tradicionais de imagem, como estimativa de profundidade e detecção de objetos, o Transframer também é capaz de sintetizar novos pontos de vista de um objeto e prever trajetórias de vídeo.

Em um curto tweet, o Deepmind mostra cerca de seis vídeos de 30 segundos que o Transframer criou a partir de uma única imagem de entrada. Apesar da baixa resolução, alguma consistência pode ser vista.

Deepmind diz que os resultados mostram que uma estrutura como o Transframer é adequada para tarefas desafiadoras de modelagem de imagem e vídeo. O Transframer também pode atuar como multitarefa para resolver problemas de análise de imagem e vídeo que anteriormente usavam modelos especializados, disseram os pesquisadores.