O Point-E da OpenAI é DALL-E para modelos 3D. O sistema extremamente rápido gera uma nuvem de pontos 3D a partir do texto.
Tendo já lançado modelos generativos de IA para texto e imagens, a OpenAI agora mostra o que pode vir a seguir: um gerador de texto para 3D. O Point-E gera nuvens de pontos 3D a partir de descrições de texto que podem servir como modelos em ambientes virtuais, por exemplo. Além do OpenAI, já existem outros modelos de IA generativa para 3D, como o do Google fusão dos sonhos ou da Nvidia Magic3D .
No entanto, o Point-E de código aberto da OpenAI é considerado significativamente mais rápido e pode gerar modelos 3D em um a dois minutos em uma única GPU Nvidia V100.
O Point-E da OpenAI gera nuvens de pontos
Point-E não gera modelos 3D no sentido clássico, mas nuvens de pontos que representam formas 3D. Em comparação, o Dreamfusion do Google gera NeRFs – isso leva muito mais tempo, mas pode representar significativamente mais detalhes em contraste com uma nuvem de pontos. No entanto, a qualidade comparativamente inferior do Point-E permite que o sistema seja eficiente.
Depois que o Point-E gera uma nuvem de pontos, ela é transformada por outro modelo em malhas, que servem como padrão em modelagem e design 3D. Segundo a OpenAI, esse processo ainda não está totalmente isento de erros: em alguns casos, certas partes da nuvem podem ser processadas incorretamente, resultando em malhas defeituosas.
Dois modelos generativos em Point-E
O próprio Point-E consiste em dois modelos: um DESLIZAR modelo e um modelo de imagem para 3D. O primeiro é semelhante a sistemas como DALL-E ou Difusão estável e pode gerar imagens a partir de descrições de texto. O segundo modelo foi treinado pelo OpenAI com imagens e objetos 3D associados, aprendendo a gerar nuvens de pontos correspondentes a partir das imagens. Para o treinamento, a empresa usou vários milhões de objetos 3D e metadados associados, diz o jornal.
Este processo de duas etapas pode falhar, relata a equipe. Mas é tão rápido que gera objetos quase 600 vezes mais rápido que o Dreamfusion. “Isso pode torná-lo mais prático para certas aplicações ou permitir a descoberta de objetos 3D de maior qualidade”, disse a equipe.
Apresentamos o Point·E, um sistema para síntese condicional de texto de nuvens de pontos 3D que primeiro gera visualizações sintéticas e depois gera nuvens de pontos coloridas condicionadas a essas visualizações. Descobrimos que o Point·E é capaz de produzir com eficiência diversas e complexas formas 3D condicionadas a prompts de texto.
OpenAI
O Point-E é um ponto de partida para trabalhos futuros na síntese de texto para 3D, de acordo com a OpenAI, e é de código aberto em GithubGenericName . Se o desenvolvimento da empresa de DALL-E 2 , ChatGPT e outros produtos são quaisquer guias, um Point-E 2 pode abalar o mercado 3D já no próximo ano.