Sumário
A Meta mostra o HyperReel, uma nova maneira de armazenar e renderizar vídeo 6-DoF. O HyperReel pode ser usado em aplicativos AR e VR, por exemplo.
Durante anos, os vídeos 3D de 180° ou 360° foram o culminar de muitos esforços para produzir os vídeos mais imersivos possíveis para a realidade virtual. Câmeras melhores e resoluções mais altas estão se tornando disponíveis.
Mas um passo importante ainda não foi dado: vídeos imersivos em seis graus de liberdade (6-DoF) que permitem alterar a posição da cabeça no espaço, além da direção de visualização.
Já houve tentativas iniciais de tornar esses vídeos particularmente imersivos adequados para consumo em massa, como a tecnologia Lightfields do Google ou mesmo experimentos com vídeos volumétricos como o vídeo Joshua Bell da Sony.
Nos últimos anos, a pesquisa tem se concentrado cada vez mais nos métodos de “visão de síntese”. Esses são métodos de IA que podem render novas perspectivas em um ambiente. Campos de Radiância Neural (NeRFs) são um exemplo dessa técnica. Eles aprendem representações 3D de objetos ou cenas inteiras de um vídeo ou muitas fotos.
O vídeo 6-DoF deve ser rápido, de alta qualidade e esparso.
Apesar dos inúmeros avanços na síntese de visualizações, não existe um método que forneça representações de alta qualidade que sejam renderizadas simultaneamente de forma rápida e com baixo consumo de memória. Por exemplo, mesmo com os métodos atuais, sintetizar uma única imagem de megaPixel pode levar quase um minuto, enquanto as cenas dinâmicas requerem rapidamente terabytes de memória. Além disso, capturar reflexões e refração é um grande desafio.
Pesquisadores da Universidade Carnegie Mellon, Reality Labs Research, Meta e da Universidade de Maryland estão agora demonstrando HyperReelName um método que é eficiente em termos de memória e pode renderizar em tempo real em alta resolução.
Para fazer isso, a equipe conta com uma rede neural que aprende a receber raios como parâmetros de entrada e saída, como cor, para um conjunto de primitivas geométricas e vetores de deslocamento. A equipe confia em prever esses primitivos geométricos na cena, como planos ou esferas, e calcula as interseções entre os raios e as primitivas geométricas, em vez das centenas de pontos ao longo do caminho do raio que são comuns em NeRFs.
Além disso, a equipe usa um método com eficiência de memória para renderizar cenas dinâmicas com alta taxa de compactação e interpolação entre quadros individuais.
Metas HyperReel atinge entre 6,5 e 29 quadros por segundo
A qualidade das cenas dinâmicas e estáticas mostradas supera a maioria das outras abordagens. A equipe atinge entre 6,5 e 29 quadros por segundo em uma GPU Nvidia RTX 3090, dependendo da cena e do tamanho do modelo. No entanto, os 29 quadros por segundo atualmente só são possíveis com o modelo Tiny, que renderiza resoluções significativamente mais baixas.
Diferente NeRFPlayerName , HyperReel não é adequado para streaming. De acordo com Meta, isso seria uma solução fácil porque o tamanho do arquivo é pequeno: o NeRFPlayer requer cerca de 17 megabytes por imagem, o Immersive Light Field Video do Google 8,87 megabytes por imagem e o HyperReel apenas 1,2 megabytes.
O HyperReel ainda não é adequado para aplicações de realidade virtual em tempo real, onde idealmente pelo menos 72 quadros por segundo devem ser renderizados em estéreo. No entanto, como o método é implementado no vanilla PyTorch, um aumento significativo na velocidade pode ser alcançado no futuro com esforço técnico adicional, disse Meta.
Mais informações, exemplos e o código estão disponíveis em GitHub .