Sumário
Dream3D é um modelo de texto para 3D que usa Stable Diffusion, CLIP e NeRFs para criar objetos 3D detalhados a partir do texto.
Os modelos generativos de IA para 3D têm sido um dos principais focos de pesquisa desde pelo menos o final de 2021: em dezembro de 2021, O Google mostrou Dream Fields um modelo de IA generativa que combina o CLIP da OpenAI com Campos de radiação neural (NeRF) . Através do método, formas 3D podem ser sintetizadas a partir de descrições de texto. O CLIP orienta uma rede NeRF inicializada aleatoriamente para construir uma representação interna correspondente da descrição do texto.
Menos de um ano depois, pesquisadores da Concordia University, no Canadá, demonstraram o método relacionado CLIP-Mesh , que, no entanto, não utiliza NeRFs. Nesse mesmo mês, o Google também mostrou fusão dos sonhos uma versão muito melhorada do Dream Fields que se baseia no modelo de imagem grande do Google Imagen em vez de CLIP. Da Nvidia, existe o GET3D e da OpenAI, o Point-E.
Dream3D combina CLIP, Stable Diffusion e NeRFs para modelos detalhados.
Um novo artigo de pesquisadores do ARC Lab, Tencent PCG, ShanghaiTech University, Shanghai Engineering Research Center of Intelligent Vision and Imaging, e Shanghai Engineering Research Center of Energy Efficient and Custom AI IC mostra agora Sonho3D um modelo generativo de conversão de texto em 3D que combina CLIP, Difusão estável um gerador 3D e NeRFs.
Uma entrada de texto é passada primeiro para um modelo Stable Diffusion ajustado no Dream3D para sintetizar uma imagem de estilo de renderização. Essa imagem é então convertida em uma forma 3D por outro modelo.
Ao contrário de outros métodos, este processo usa apenas a parte da entrada de texto relevante para a forma central: de “Um banco de jardim coberto de vinhas”, por exemplo, apenas “Um banco de parque” é usado.
A forma 3D resultante é usada para inicializar o NeRF, que é otimizado usando a orientação CLIP por meio da entrada de texto completa, como em outros métodos.
Dream3D é um dos melhores métodos atualmente disponíveis
De acordo com a equipe, o Dream3D supera claramente os métodos mais antigos, como Dream Fields, PureCLIPNeRF ou CLIP-Mesh. Na verdade, as renderizações NeRF mostradas são detalhadas e correspondem às entradas de texto.
“Um carro está queimando.” | Vídeo: Xu, Wang, Gao et al.
“O Trono de Ferro em Game of Thrones.” | Vídeo: Xu, Wang, Gao et al.
“Um carro de minecraft.” | Vídeo: Xu, Wang, Gao et al.
A vantagem de inicializar o NeRF com a forma 3D gerada pode ser vista claramente. No entanto, a equipe não faz uma comparação direta com o recente método Dreamfusion do Google.
Mas o uso de formas 3D como prioritário para o NeRF também limita o Dream3D:
Apesar da forte capacidade de geração do Stable Diffusion, não podemos restringi-lo para evitar a geração de imagens de formas que estão fora da distribuição do gerador de formas 3D, pois o Stable Diffusion é treinado em um conjunto de dados de imagens de texto em megaescala, enquanto o gerador de formas 3D pode gerar apenas uma quantidade limitada de formas. Além disso, a qualidade da síntese de texto em forma em nossa estrutura depende muito da capacidade de geração do gerador 3D.
Do papel.
Os pesquisadores esperam introduzir melhores versões 3D no sistema no futuro, estendendo a funcionalidade do Dream3D para mais categorias de objetos. Mais exemplos e em breve o código estão disponíveis em GitHub .