RenderDiffusion gera uma cena 3D a partir de uma única imagem 2D

O salto de 2D para 3D apresenta desafios para os métodos de difusão existentes. RenderDiffusion parece promissor porque pode renderizar uma cena 3D com base em uma única imagem 2D.

Para imagens 2D, os métodos de difusão fizeram grandes progressos nos últimos meses. Gradualmente, os pesquisadores neste caminho também estão vendo sucesso para objetos 3D. O Google, por exemplo, demonstrou recentemente o 3DiM que pode gerar visualizações 3D a partir de imagens 2D.

Atualmente, os modelos de difusão alcançam o melhor desempenho na geração de imagens condicionais e incondicionais, de acordo com pesquisadores de várias universidades do Reino Unido e da Adobe Research. Até agora, no entanto, esses modelos não ofereceram suporte à geração ou reconstrução 3D consistente de objetos a partir de uma única perspectiva.

remoção de ruído 3D

Em seu artigo, os pesquisadores apresentam RenderDiffusion. Este, dizem eles, é o primeiro modelo de difusão para geração e inferência 3D que pode ser treinado usando apenas supervisão monocular 2D. O modelo pode gerar uma cena 3D de uma única imagem 2D de ponta a ponta sem depender de dados multiview como Gaudí .

No centro do método está uma arquitetura personalizada para reduzir o ruído da imagem original. Em cada etapa, o método gera uma representação 3D tridimensional e volumétrica de uma cena. A representação 3D resultante pode ser renderizada de qualquer ponto de vista. Essa abordagem baseada em difusão também permite o uso de pintura interna 2D para modificar as cenas 3D geradas.

Em comparação com modelos 3D generativos semelhantes, como o EG3D baseado em GAN e PixelNeRF, que usa imagens multiview de imagens de entrada 2D, o RenderDiffusion produz objetos 3D mais fiéis da imagem de entrada que também são mais nítidos e detalhados, escrevem os pesquisadores.

Uma grande desvantagem do RenderDiffusion é que as imagens de treinamento devem ser rotuladas com os parâmetros da câmera. Além disso, a geração em diferentes categorias de objetos é difícil.

Essas limitações podem ser superadas estimando os parâmetros da câmera e as caixas delimitadoras do objeto e usando um sistema de coordenadas centrado no objeto. Dessa forma, o sistema também pode gerar cenas com vários objetos, escrevem os pesquisadores.

RenderDiffussion pode permitir “geração 3D completa em escala”

Os pesquisadores veem seu artigo como uma contribuição significativa para a indústria 3D: “Acreditamos que nosso trabalho promete permitir a geração 3D completa em escala quando treinado em coleções massivas de imagens, contornando assim a necessidade de ter coleções de modelos 3D em grande escala para supervisão. “

O trabalho futuro pode permitir a edição de objetos e materiais para permitir um “fluxo de trabalho expressivo de edição de imagens 2D com reconhecimento de 3D”.

Os pesquisadores planejam publicar seu código e conjuntos de dados no Github em breve .