Dreamfusion: Google AI cria modelos 3D a partir de texto

O Dreamfusion combina o grande modelo de imagem AI do Google, Imagen, com os recursos 3D do NeRF.

Dreamfusion é a evolução do Dream Fields, um sistema generativo de IA 3D que o Google revelou no final de 2021. Para o Dream Fields, o Google combinou o modelo de análise de imagem CLIP da OpenAI com o Neural Radiance Fields (NeRF), que permite que uma rede neural armazene modelos 3D.

O Dream Fields aproveitou a capacidade do NeRF de gerar visualizações 3D e combinou-o com a capacidade do CLIP de avaliar o conteúdo das imagens. Após uma entrada de texto, um modelo NeRF não treinado gera uma visualização aleatória de um único ponto de vista, que é avaliado pelo CLIP. A realimentação é usada como um sinal de correção para o modelo NeRF. Este processo é repetido até 20.000 vezes de diferentes pontos de vista até que um modelo 3D correspondente à descrição do texto seja gerado. Dreamfusion desenvolve ainda mais esta abordagem.

De imagens 2D a modelos 3D

Com base no modelo de difusão de texto e imagem 2D pré-treinado do Google Imagen , Dreamfusion realiza síntese de texto 3D. Para Dreamfusion, o Google está substituindo o OpenAI CLIP, que também pode ser usado para geração 3D com uma nova perda baseada no Imagen, que o Google diz, “poderia permitir muitas novas aplicações de modelos de difusão pré-treinados”.

Portanto, a geração 3D não requer treinamento com dados 3D que não estariam disponíveis na escala necessária. Em vez disso, Dreamfusion aprende a representação 3D usando imagens 2D de um objeto gerado com Imagen de diferentes perspectivas. A equipe de pesquisa usou prompts dependentes do olhar, como “visão frontal” ou “visão traseira” para esse fim. O processo é executado automaticamente.

Vídeo: Google

Comparado ao Dream Fields, o Dreamfusion cria objetos 3D religáveis ​​com maior qualidade, profundidade e normais com base na entrada de texto. Vários modelos 3D criados com Dreamfusion também podem ser mesclados em uma cena.

Vídeo: Google

“Nossa abordagem não requer dados de treinamento 3D e nenhuma modificação no modelo de difusão de imagem, demonstrando a eficácia dos modelos de difusão de imagem pré-treinados como anteriores”, escreve a equipe de pesquisa do Google.

Exportando modelos 3D gerados para ferramentas 3D padrão

Os modelos NeRF gerados podem ser exportados em malhas usando o algoritmo Marching Cubes e depois integrados em renderizadores 3D populares ou software de modelagem.

“Estamos entusiasmados em incorporar nossos métodos com modelos de código aberto e possibilitar um novo futuro para a geração 3D”, escreveu Ben Poole, pesquisador colaborador do Google Brain, no Twitter.

Uma visão geral de Modelos 3D gerados com Dreamfusion estão disponíveis no Github .