NeRFs estão (quase) prontos para produção de vídeo

Um experimento para descobrir o quão perto os NeRFs estão de substituir certos tipos de produção de vídeo tradicional. Um orçamento de seis dígitos, produção de 30 dias e o maior guindaste MoCo do mundo contra um cara com um smartphone, algumas bibliotecas de código aberto e uma GPU de consumo.

Há alguns anos, fui o diretor criativo de uma série de filmes para o lançamento do Acura RDX 2019. Filmamos uma série de vídeos em 360º voando ao redor do carro em três ambientes diferentes, e eu tive o prazer e a experiência de preencher a lista de desejos de gravar os filmes com o Plataforma de controle de movimento Titan, uma plataforma que ainda em 2023 possui a maior amplitude de movimento de qualquer plataforma MoCo do mundo. Além de capturar os vídeos do fly-around com altíssima precisão, o equipamento também nos permitiu abaixar a câmera para dentro do carro, uma característica importante do filme porque o carro foi lançado com um teto solar líder na categoria.

Ótima produção, com excelente equipe tanto no set quanto na pós, e o vídeo resultante foi tão bom que um cliente sênior sugeriu que fizéssemos isso para todos os carros sem a parte do teto solar. Infelizmente, isso acabou não sendo viável, porque a produção tinha um orçamento de produção e pós-produção de seis dígitos. Tivemos um dia de filmagem de 10 horas por locação e cerca de 4 semanas de pós-produção. Certo, muito disso tinha a ver com a complexidade do teto solar, mas mesmo sem isso, as realidades da produção não funcionariam.

NeRF versus plataforma de controle de movimento

Mas em 2023 estamos em um lugar onde podemos conseguir isso a um custo muito menor e muito mais rápido, graças a implementações modernas de NeRFs, uma estrutura de aprendizado de máquina para apresentar cenas do mundo real como campos de radiação neural, introduzido pela primeira vez por Matthew Tancik et. al em 2020 como um trabalho de pesquisar. Em um alto nível, os NeRFs são representações 3D virtuais de cenas do mundo real. Eles são criados capturando uma série de fotos daquela cena do mundo real e, em seguida, passando essas fotos por uma série de algoritmos que calculam onde elas pertencem em um espaço 3D. As fotos e os dados posicionais são usados ​​para treinar o NeRF. Depois que o NeRF é treinado, ele pode ser visualizado em um ambiente 3D que simula a luz (ou radiância) na cena de todos os ângulos concebíveis.

A captura de tela abaixo demonstra isso em ação, com cerca de 300 fotos extraídas de um pequeno vídeo que mostro, andando três vezes ao redor do meu carro segurando a câmera do meu telefone em três alturas diferentes. Nesta cena, posso mover minha viewport para onde quiser, desde que haja Pixels nas ~300 fotos cobrindo essa área.

Como sempre, demora um pouco para os trabalhos de pesquisa verem aplicações no mundo real, e as ferramentas disponíveis ainda não são destinadas à produção, mas o resultado já é muito promissor. eu usei Nerfstudio para este projeto, e é daí que vem a captura de tela. É um excelente projeto de código aberto de um bom grupo de pesquisadores, mas existem outras implementações disponíveis, incluindo Instant-ngp do NVidia Labs.

Vídeo: Martin Pagh Ludvigsen

À esquerda está um dos três vídeos finalizados que produzimos em 2018. À direita está um vídeo que renderizei de um NeRF que criei algumas semanas atrás. Já mencionei quanto tempo e dinheiro foram gastos no da esquerda. O da direita levou 2,5 horas de produção com uma equipe minha: cerca de 1,5 horas dirigindo de minha casa para um local com neve e voltando, 30 minutos foram gastos configurando e capturando o conteúdo para o NeRF e 30 minutos foram gastos cavando meu carro dos 18 polegadas de neve em que prendi meu carro para obter a filmagem.

Mas, de longe, a maior economia de tempo está na pós-produção. Não há nenhum guindaste de controle de movimento gigante que precisamos pintar, mudanças de luz que precisamos combinar porque o sol se moveu no céu durante a filmagem ou sombras no chão que precisamos recriar. Na minha GPU de consumo, demorou cerca de 1 hora para treinar o modelo NeRF. Passei 45 minutos montando a cena e mais uma hora renderizando os vídeos. Portanto, o tempo total gasto na produção e na postagem é inferior a um dia, incluindo transporte e remoção da neve.

NeRFs permitem um loop perfeito

Agora, o vídeo à direita está longe de ser perfeito; Quase não dá para distinguir os emblemas, faltam muitos detalhes nas grades dianteiras e a chapa metálica tem muitos artefatos de compressão e linhas que faltam. Mas lembre-se de que gravei esse conteúdo em meu smartphone enquanto nevava, nem limpei meu carro para a filmagem e não fiz pré-processamento das imagens de origem ou pós-processamento do vídeo. Também há partes “ausentes” do chão e do céu porque não capturei essas áreas em minha caminhada ao redor do carro.

Enquanto o carro à esquerda parece muito bom, o vídeo ainda tem muitos pequenos problemas, e dois grandes:

1) Não faz loop perfeitamente. O motivo é que seria muito difícil criar um caminho de movimento da câmera que fizesse um loop perfeito e nos permitisse criar as várias versões diferentes do vídeo de que precisávamos. Isso não é um problema com NeRFs, onde a câmera é criada, posicionada e controlada matematicamente na pós-produção. É por isso que o loop à direita é perfeito. Mesmo com o melhor equipamento de controle de movimento, esse tipo de loop perfeito é difícil de conseguir.

2) Tem a mesma aparência suave de novela que você vê na TV de seus pais. Isso porque tivemos que fazer a interpolação de quadros na postagem para obter os vídeos com as durações exatas de que precisávamos. Quando você faz uma sessão prática, obtém apenas os quadros que fotografa e finaliza na pós-produção, e isso será limitado pelo tempo e orçamento que você tem. Com os NeRFs, esse não é o caso, porque o vídeo de saída é renderizado a partir de uma cena virtual e a duração do vídeo não é restringida de forma alguma pelos quadros disponíveis.

Vídeo: Martin Pagh Ludvigsen

Isso significa que é quase trivial criar várias versões diferentes do vídeo em diferentes proporções, e os resultados nunca sofrerão dos mesmos problemas que o vídeo prático. Foi o que fiz na colagem acima, que também inclui dois dos notoriamente difíceis vídeos 9:16 – dei à câmera um FOV um pouco mais amplo e fiz um caminho muito mais dinâmico em vez de me preocupar com os desafios habituais de converter um 16 :9 vídeo até 9:16. E fiz um exatamente 15 segundos e o outro 7,5 segundos, porque é tão simples quanto digitar um número e clicar em renderizar. Existe o seu 1:1 (ou 4:5) para o feed, 9:16 para formatos de histórias e 16:9 para o portfólio. Na verdade, já que é para o portfólio, posso muito bem ir em frente e criar uma versão anamórfica 2.4:1 ainda mais inútil, mas muito bonita.

Vídeo: Martin Pagh Ludvigsen

NeRFs são incrivelmente poderosos

Tenho certeza de que a qualidade visual vai melhorar e, para alguns dos meus próximos experimentos, quero experimentar câmeras e lentes melhores, pré-processando as imagens para limpar quaisquer falhas, talvez lavando meu carro e possivelmente aumentando a resolução da fonte material filmando 8k.

Mas a maior desvantagem é que não há ação na cena – um NeRF é um momento congelado no tempo, na verdade, você quer ter certeza de que não haverá mudanças na cena enquanto a captura, ou o NeRF imperfeita. Se você deseja capturar a ação, precisa de um sistema de câmera de campo de luz total, como o sistema Lytro agora com falha, um sistema que armazenava 400 GB de dados para cada segundo de captura. Mas é claro que a ação pode ser adicionada como CGI, e já há pesquisas sobre como trazer ação para os NeRFs.

Os NeRFs podem ser exportados em formatos como nuvens de pontos que pode ser importado em software CGI 3D como Blender ou Maya, ou plataformas 3D em tempo real como Unreal Engine ou Unity3D onde é provável que complemente ou possivelmente substitua fotogrametria como o método preferido para importar objetos e cenas reais para um software 3D.

Mas, mesmo sozinhos, os NeRFs são incrivelmente poderosos, e acredito que esses experimentos demonstram que eles estão muito perto de estarem prontos para a produção de vídeos simples de objetos e cenas da vida real para mídias sociais.

Saiba mais sobre Martin em seu site.