HumanNeRF: AI renderiza humanos 3D apenas a partir de vídeo

Renderização Neural para Humanos: HumanNeRF sintetiza visualizações 3D de pessoas a partir de um simples vídeo do YouTube.

Os métodos de renderização neural prometem aumentar ou mesmo substituir os métodos consagrados pelo tempo de renderização 3D por inteligência artificial. Um exemplo são os chamados Neural Radiance Fields (NeRFs), pequenas redes neurais que podem aprender representações 3D de fotos 2D e depois renderizá-las.

A tecnologia tem produzido imagens cada vez mais realistas desde a sua invenção. Algumas variantes agora podem aprender e renderizar representações 3D complexas em questão de segundos. No GTC deste ano, por exemplo, a Nvidia deu insights sobre NeRF Instantâneo um método que é até 1.000 vezes mais rápido que os métodos mais antigos.

De acordo com David Luebke, vice-presidente de pesquisa gráfica da Nvidia, os NeRFs são comparáveis ​​à compressão JPEG para fotografia 2D. Ele explicou que, se as representações 3D tradicionais, como malhas poligonais, são comparáveis ​​a imagens vetoriais, os NeRFs são como imagens bitmap. Eles capturam como a luz irradia de um objeto ou dentro de uma cena.

Luebke diz que isso permite um grande aumento na velocidade, simplicidade e alcance ao capturar e compartilhar conteúdo 3D.

Google implanta NeRFs para visualização imersiva com o Google Maps

o pioneiro no desenvolvimento do NeRF é o Google . A empresa desenvolveu NeRFs em conjunto com cientistas da UC Berkeley e da UC San Diego. Desde então, o Google tem mostrado Blocos de rua renderizados por IA que permitem uma espécie de Street View 3D e renderizações 3D fotorrealistas de objetos do mundo real graças a Mip-NeRF 360 .

Na conferência de desenvolvedores de I/O deste ano, O Google mostrou a visualização imersiva uma perspectiva 3D sintetizada das principais cidades e vistas internas individuais, como restaurantes, também com base na renderização neural.

Vídeo: Google

Agora, pesquisadores da Universidade de Washington e do Google demonstram como os NeRFs podem renderizar pessoas em 3D.

NeRFs para pessoas: movimento e roupas têm sido um desafio – até agora

O novo HumanNeRF O método resolve dois problemas na representação de pessoas com NeRFs: Até agora, as redes trabalharam principalmente com objetos estáticos e contavam com fotos de câmeras de vários ângulos.

O HumanNeRF, ao contrário, pode renderizar pessoas em movimento, incluindo os movimentos de suas roupas, de ângulos nunca antes vistos – com material de treinamento de uma perspectiva de câmera única. Isso significa que os NeRFs também podem ser treinados com um vídeo do YouTube no qual, por exemplo, uma pessoa dançando é filmada de frente.

Vídeo: Weng et al. | Universidade de Washington | Google

O HumanNeRF conta com várias redes que capturam uma representação canônica da pessoa na chamada pose T, bem como um chamado campo de movimento que aprende um movimento esquelético rígido e movimentos não rígidos, como roupas. A pose da pessoa filmada é adicionalmente capturada com uma rede simples de estimativa de pose.

As informações aprendidas do campo de movimento e a estimativa de pose podem modificar a representação canônica aprendida de acordo com a pose mostrada no vídeo e, em seguida, renderizá-la a partir do NeRF.

Para o Google, o HumanNeRF é apenas o começo

O método, portanto, permite renderizações 3D muito mais realistas do que os métodos anteriores: as pessoas renderizadas são mais detalhadas e os movimentos nas roupas são claramente visíveis.

Em vários exemplos, os pesquisadores mostram que um único ângulo de câmera é suficiente para renderização em 3D – portanto, é possível usá-lo na natureza, por exemplo, para vídeos do YouTube.

O HumanNeRF também pode renderizar a cena aprendida completa do ponto de vista diretamente oposto após o treinamento – isso é particularmente desafiador, pois nem um único Pixel renderizado foi visível durante o treinamento.

Como limitações, os pesquisadores citam a falta de detalhes e um espasmo perceptível durante a transição entre diferentes poses, uma vez que a coerência temporal no campo de movimento não é considerada.

O progresso tecnológico também tem seu preço: o treinamento exigiu 72 horas em quatro GPUs GeForce RTX 2080 Ti. No entanto, a equipe aponta para descobertas como o Instant-NGP da Nvidia, que reduz drasticamente o poder de computação necessário para NeRFs e outros métodos de renderização neural.

Assim, com algumas melhorias e menores requisitos computacionais, a tecnologia poderia chegar aos usuários finais eventualmente e fornecer ao Google outro bloco de construção para o futuro da AR que foi claramente desenhado no I/O deste ano.