SDFusion é uma estrutura de IA para gerar ativos 3D que podem processar imagens, texto ou formas como entrada.
Modelos de IA generativos para ativos 3D podem mudar os fluxos de trabalho na indústria ou ajudar usuários não treinados a criar seus próprios objetos e mundos virtuais. O CEO da Nvidia, Jensen Huang, por exemplo, vê esse processo criativo alimentado por IA como central para o futuro do Metaverso.
Os sistemas atuais de IA usam métodos de renderização neural, como NeRFs que aprendem objetos 3D com base em diferentes visualizações ou geram NeRFs por meio de entrada de texto, como Dreamfusion do Google . Outros métodos, como CLIP-Mesh crie malhas a partir da entrada de texto usando modelos de difusão.
Pesquisadores da Universidade de Illinois Urbana Champagne e da Snap Research estão demonstrando o SDFusion, uma estrutura de IA multimodal para ativos 3D.
SDFusion processa texto, imagens e formas
Os modelos de IA 3D existentes fornecem resultados atraentes, mas o treinamento costuma ser demorado e negligencia os dados 3D disponíveis, dizem os pesquisadores.
A equipe, portanto, propõe uma paradigma colaborativo para modelos generativos : os modelos treinados em dados 3D fornecem geometrias detalhadas e precisas. Os modelos treinados em dados 2D fornecem aparências diferentes.
Seguindo esse paradigma, a equipe desenvolveu o SDFusion, um modelo generativo baseado em difusão para ativos 3D que também pode processar entrada multimodal, como texto, imagens ou formas 3D. Os objetos 3D podem ser adicionalmente texturizados por meio da interação de modelos generativos de IA 3D e 2D.
O SDFusion permite que os usuários criem ativos 3D com formas incompletas, imagens e descrições de texto simultaneamente. Isso permite um controle mais preciso do processo generativo. Por exemplo, uma foto de uma cadeira com uma única perna pode ser combinada com quatro pernas de cadeira digital para criar uma cadeira com quatro pernas. O assento da foto é transportado.
SDFusion aprende multimodalmente
Durante o treinamento, o modelo de difusão do SDFusion aprende com modelos 3D e por meio de codificadores que podem processar texto e imagens. Após o treinamento, a equipe também pode regular a relevância de entradas individuais, como descrição de texto, imagem ou forma 3D para gerar diferentes ativos 3D.
Nos testes, o SDFusion pode superar as alternativas testadas pela equipe: “O SDFusion gera formas de melhor qualidade e diversidade, sendo consistente com as formas parciais de entrada”. Isso é verdade para a conclusão de formas fornecidas, reconstrução 3D de visualização única, geração guiada por texto e geração multicondicional.
Apesar dos bons resultados, no entanto, ainda há muito a melhorar, escreve a equipe. Por exemplo, seria desejável um modelo que pudesse funcionar com inúmeras representações 3D, dizem eles. O SDFusion trabalha exclusivamente com alta qualidade SDFs igual a MoMa 3D da Nvidia . Outra área de pesquisa também seria usar o SDFusion em cenários mais sofisticados, como gerar cenas 3D inteiras.
Você pode encontrar mais informações e exemplos no página do projeto SDFusion .