Magic3D da Nvidia transforma texto em objetos 3D de alta resolução

O Magic3D da Nvidia pode criar objetos 3D com base na entrada de texto. O modelo deve superar significativamente o modelo de texto para 3D Dreamfusion do Google, que foi lançado apenas em setembro.

Curti fusão dos sonhos , Magic3D baseia-se em um modelo de geração de imagem que usa texto para criar imagens de diferentes perspectivas, que por sua vez servem como entrada para a geração 3D. A equipe de pesquisa da Nvidia usa seu modelo de imagem interno eDiffi para isso, enquanto o Google conta com Imagen .

A vantagem desse método é que o modelo de IA generativo não precisa ser treinado com modelos 3D escassos. Ao contrário da Nvidia modelo de texto para 3D disponível gratuitamente Get3D Magic3D também pode gerar muitos modelos 3D de diferentes categorias sem treinamento adicional.

Do grosso ao fino

Com o Magic3D, a Nvidia vai do grosseiro ao fino: primeiro, o eDiffi gera imagens de baixa resolução com base no texto, que são processadas em uma representação 3D inicial por meio de Estrutura Instant NGP da Nvidia .

Usando o Modelo DMTet AI otimizada para essa finalidade, a equipe extrai uma malha 3D de alta qualidade da representação NGP simples. Isso serve como modelo para outras imagens 2D, que são ampliadas e usadas para otimizar a malha 3D.

O resultado é um modelo 3D com resolução de até 512 x 512 Pixels que pode ser importado e visualizado em software gráfico padrão, segundo a Nvidia.

Aumentar a criação de conteúdo 3D com linguagem natural pode ajudar consideravelmente a democratizar a criação de conteúdo 3D para novatos e turbinar artistas especializados.

do papel

Magic3D supera Dreamfusion em resolução e velocidade

De acordo com a equipe de pesquisa da Nvidia, o Magic3D leva metade do tempo para criar um modelo 3D em comparação com o Dreamfusion – cerca de 40 minutos em vez da média de uma hora e meia – com oito vezes a resolução.

Magic3D também oferece funções de edição típicas para sistemas de imagem AI, que podem ser transferidas para o processo de geração 3D. Por exemplo, os prompts de texto podem ser ajustados após a geração inicial: um esquilo em uma bicicleta se transforma em um coelho em uma scooter.

Dreambooth ajuste fino do eDiffi O modelo de difusão também permite a otimização de modelos 3D gerados para assuntos específicos. O modelo também pode transferir o estilo de uma imagem de entrada para um modelo 3D.

1675257743 729 Magic3D da Nvidia transforma texto em objetos 3D de alta

A equipe de pesquisa da Nvidia espera que o Magic3D possa “democratizar a síntese 3D” e encorajar a criatividade na criação de conteúdo 3D. Isso parece estar no espírito da empresa de capital de risco do Vale do Silício, Andreessen Horowitz: ela especula que IA generativa transformará o setor de jogos que conta com todos os tipos de formatos de mídia e conteúdo 3D em particular.