A mais recente IA de código aberto da Nvidia gera modelos 3D a partir de uma única imagem 2D

O novo modelo GET3D AI da Nvidia foi projetado para acelerar a criação de conteúdo 3D. O modelo gera malhas de polígonos 3D texturizados com base em fotos 2D que podem ser usadas perfeitamente em mecanismos gráficos padrão.

GET3D significa “Generate Explicit Textured 3D” e é um modelo 3D generativo que pode sintetizar malhas de polígonos 3D de alta qualidade com qualquer topologia. Uma única imagem 2D é suficiente como entrada para o processo de geração.

As malhas de polígonos geradas consistem em triângulos texturizados – um formato padrão que permite a importação contínua para programas 3D, mecanismos de jogos ou renderizadores de filmes.

Os objetos 3D são totalmente editáveis ​​após a importação e podem ser dimensionados, girados e iluminados, por exemplo. Com StyleGAN-Nada da Nvidia os desenvolvedores podem alterar ainda mais a forma ou a textura do modelo 3D usando apenas comandos de texto e, assim, por exemplo, transformar um carro convencional em um carro de polícia.

Geração de modelos 3D a partir de imagens 2D sintéticas

A equipe de pesquisa da Nvidia desenvolveu um processo de geração em duas etapas: O ramo de geometria gera a malha de polígonos com qualquer topologia desejada. A ramificação de textura gera um campo de textura que pode representar cores e, por exemplo, materiais específicos nos pontos da superfície da malha poligonal.

Finalmente, como com redes GA os discriminadores avaliam a qualidade da saída com base em fotos sintéticas do modelo 3D e a otimizam continuamente para corresponder à imagem de destino.

O GET3D foi treinado com cerca de um milhão de imagens 2D sintéticas de modelos 3D de diferentes ângulos. De acordo com a Nvidia, o treinamento durou cerca de dois dias nas GPUs Nvidia A100.

GET3D acelera o processo de conteúdo 3D

Os modelos 3D que o GET3D pode gerar dependem dos dados de treinamento: Por exemplo, se você treinar o sistema com imagens sintéticas de carros ou animais, ele pode gerar carros ou animais 3D. Quanto maior e mais diversificado for o conjunto de dados de treinamento, mais detalhados e diversos serão os modelos 3D gerados, diz a Nvidia.

Em uma única GPU Nvidia pronta para uso, o modelo pode gerar cerca de 20 formas por segundo após o treinamento, que se combinam para formar um modelo 3D, de acordo com a Nvidia. A geração ocorre localmente no computador do usuário e, portanto, é independente de restrições de conteúdo, como as conhecidas dos serviços de IA em nuvem.

“O GET3D nos aproxima um pouco mais da democratização da criação de conteúdo 3D com IA”, diz Sanja Fidler, chefe de Laboratório de pesquisa da Nvidia em Toronto onde a ferramenta foi desenvolvida.

Uma limitação do GET3D, de acordo com a equipe de pesquisa da Nvidia, é que o treinamento atualmente só é possível com silhuetas 2D de imagens sintéticas de posições de câmera conhecidas. Em versões futuras, os avanços na estimativa da posição da câmera podem formar a base para o treinamento com imagens reais.

Atualmente, o GET3D também seria treinado apenas por categoria. Um modelo de categoria cruzada pode aumentar a variedade de modelos 3D gerados e melhorar a flexibilidade do sistema.

Como um modelo de código aberto, GET3D está disponível para grátis no Github .