O Google gera visualizações 3D a partir de uma imagem 2D

O novo modelo de difusão do Google gera visualizações em 3D a partir de uma única imagem. Os autores veem seu trabalho como uma alternativa aos NeRFs.

Dentro do domínio dos sistemas de IA generativos, os modelos de difusão tornaram-se bastante populares: sistemas de IA como DALL-E 2 , Imagen , meio da jornada ou Difusão estável dependem do método para gerar imagens. Os modelos de vídeo Vídeo de imagem , Faz um video e fenaki gerar vídeos, animações de difusão de movimento e CLIP-Mesh Modelos 3D com difusão.

Agora, os pesquisadores do Google estão demonstrando “3D Diffusion Models” (3DiM), um modelo de difusão que gera novas visualizações 3D a partir de uma única imagem.

O 3DiM do Google gera visualização 3D com uma imagem

O 3DiM do Google processa uma única imagem de referência com informações de pose relativa para a visualização 3D e gera uma nova visualização por difusão. Ao contrário de sistemas AI semelhantes, o 3DiM usa essas novas imagens para gerar visualizações subsequentes, em vez de depender de apenas uma única visualização para cada visualização recém-gerada. Os pesquisadores do Google se referem a isso como condicionamento estocástico.

Especificamente, durante o processo de difusão reversa de cada imagem, o modelo seleciona uma imagem condicionada aleatória do conjunto de imagens anteriores em cada etapa de remoção de ruído.

Esse condicionamento estocástico produz resultados 3D muito mais consistentes, conforme mostrado nos vídeos gerados, em comparação com o método de amostragem ingênuo que considera apenas uma única imagem anterior, escreve a equipe do Google.

Vídeo: Google

A equipe também treinou um modelo 3DiM de 471 milhões de parâmetros usando o conjunto de dados ShapeNet. O modelo pode então gerar visualizações 3D para todos os objetos no conjunto de dados.

3DiM usa melhorias arquitetônicas, o Google visa o uso de dados do mundo real

Além do condicionamento estocástico, o 3DiM se beneficia de algumas mudanças arquitetônicas na arquitetura clássica de imagem a imagem UNet. Os pesquisadores propõem o X-UNet, uma variante que compartilha pesos entre diferentes imagens, além de depender da atenção cruzada.

Eles mostram que melhores resultados são possíveis com essa modificação. Os modelos de difusão 3D podem, portanto, fornecer uma alternativa a outras técnicas, como NeRFs, que ainda enfrentam problemas de qualidade e altos custos computacionais, de acordo com a equipe.

Em seguida, a equipe gostaria de aplicar a capacidade dos modelos de difusão 3D de modelar conjuntos de dados inteiros aos maiores conjuntos de dados 3D do mundo real. No entanto, mais pesquisas são necessárias para superar os desafios típicos de tais conjuntos de dados, como poses ruidosas ou distâncias focais variadas nas fotos, disseram eles.

Mais exemplos e informações estão disponíveis no página 3DiM Github .