O NeRFPlayer transmite cenas volumétricas realistas e dinâmicas

NeRFs representam cenas 3D em uma rede neural. Um novo trabalho abre a tecnologia AI para cenas dinâmicas.

Neural Radiance Fields (NeRFs) aprendem representações 3D de imagens e podem, então, renderizar cenas 3D de ângulos nunca antes vistos. Isso permite, por exemplo, um tour de câmera de 360 ​​graus em torno de um objeto, um tour de voo por imagens de drones ou uma caminhada pelo interior de um restaurante. A tecnologia também pode criar objetos 3D fotorrealistas.

Em quase todos os casos, porém, Cenas ou objetos NeRF são estáticos, pois o movimento introduz uma dimensão temporal ao processo de treinamento que é difícil de resolver. Um novo processo poderia resolver este problema.

NeRFs para cenas dinâmicas

Em um novo trabalho de pesquisa, uma equipe da Universidade de Buffalo, ETH Zurich, InnoPeak Technology e da Universidade de Tübingen agora mostra como os NeRFs podem representar cenas dinâmicas e, assim, aprender uma representação 4D a partir de imagens 2D.

Imagens RGB de câmeras diferentes ou de uma única câmera em movimento servem como entrada. Nas imagens, por exemplo, uma pessoa se movimenta ou alguém coloca café em um copo.

Para tornar adaptável uma cena dinâmica, a equipe a divide em três padrões temporais: estático, deformante e novas áreas.

No exemplo do café, a tábua de madeira sobre a qual o copo é colocado permanece estática. O conteúdo do vidro é classificado como novo e a mão visível como deformante. Um campo de decomposição fornece a divisão da cena em três categorias. Cada área é representada por seu próprio campo neural.

Em sua abordagem, os pesquisadores também dissociam as dimensões temporais e espaciais para melhorar a representação.

NeRFPlayer permite streaming NeRF

A representação decomposicional da cena dinâmica reduz significativamente os artefatos visuais em comparação com outras abordagens. A equipe também demonstra o NeRFPlayer, uma maneira de transmitir as representações aprendidas em tempo real com taxas de bits limitadas.

InstantNGP da Nvidia framework, que permite que uma rede neural aprenda representações de imagens gigaPixel, objetos 3D e NeRFs em segundos, também torna o método apresentado rápido.

Apresentamos uma estrutura para representar cenas dinâmicas de imagens capturadas com várias câmeras e com uma única câmera. Os principais componentes de nossa estrutura são o módulo de decomposição e o módulo de streaming de recursos. O módulo de decomposição decompõe a cena em áreas estáticas, deformadas e novas. Uma representação híbrida baseada em janela deslizante é então projetada para modelar eficientemente os campos neurais decompostos. Experimentos em conjuntos de dados de câmera única e múltipla validam a eficiência e a eficácia de nosso método.

Trecho do papel

No artigo, a equipe chama a exploração visual de um verdadeiro ambiente de espaço-tempo 4D em realidade virtual de visão e, sem dúvida, vê seu trabalho como uma contribuição para esse objetivo.

As cenas 3D mostradas nas demonstrações do NeRF originaram-se em um projeto de 2020 Artigo de pesquisa do Google sobre vídeos de campo de luz filmados espacialmente .