Sumário
O novo Dream Fields AI do Google pode gerar modelos 3D usando apenas uma descrição de texto.
As imagens geradas por IA estão crescendo, em particular graças ao modelo CLIP de análise de imagem treinada multimodal da OpenAI. Ele foi treinado com imagens e descrições de imagens e pode, portanto, julgar se uma entrada de texto é uma descrição apropriada do conteúdo da imagem.
O OpenAI usa o CLIP para filtrar as imagens geradas pelo DALL-E, que também é multimodal, e alcança resultados impressionantes. Pesquisadores de IA desenvolveram vários sistemas de IA que combinam CLIP com modelos generativos como VQGAN, BigGAN ou StyleGAN para gerar imagens com base em descrições de texto.
O Google Dream Fields traz IA de imagem generativa para a terceira dimensão
Agora, os pesquisadores do Google estão apresentando o “Dream Fields”, um sistema de IA que combina CLIP com NeRF. Usando o método “Neural Radiance Fields (NeRF)”, uma rede neural pode armazenar modelos 3D.
Fotos de um objeto de diferentes ângulos são necessárias para treinamento de IA . Após o treinamento, a rede pode gerar visualizações 3D que refletem as propriedades do material e a exposição do objeto original.
Alavancas do Dream Fields A capacidade do NeRF de gerar visualizações 3D e combina com a capacidade do CLIP de avaliar o conteúdo das imagens. Após uma entrada de texto, um modelo NeRF não treinado gera uma visualização aleatória de um único ponto de vista, que é avaliado pelo CLIP. A realimentação é usada como um sinal de correção para o modelo NeRF. Este processo é repetido até 20.000 vezes de diferentes ângulos até que seja criado um modelo 3D que corresponda à descrição do texto.
Dream Fields do Google é DALL-E em 3D
Os pesquisadores melhoram ainda mais os resultados com algumas restrições na posição da câmera e no plano de fundo. Como resultado, Dream Fields não gera planos de fundo e, em vez disso, concentra-se em objetos centrais no meio, como barcos, vasos, ônibus, comida ou móveis.
“um cachorro robótico. um robô em forma de cachorro” | Vídeo: Google
“buquê de flores em vaso de vidro transparente” | Vídeo: Google
“um barco na água amarrado a uma estaca” | Vídeo: Google
Semelhante ao DALL-E, o Dream Fields pode misturar categorias de objetos que são difíceis de igualar na realidade. DALL-E produziu imagens de cadeiras feitas de abacate ou pinguins feitos de alho. Dream Fields gera visualizações 3D de cadeiras de abacate ou bules feitos de Pikachu.
“uma arcada em forma de ____. um archair imitando um ____.” | Vídeo: Google
“um bule em forma de ____. um bule imitando um ____.” | Vídeo: Google
O Google espera que esses métodos permitam uma criação de conteúdo mais rápida para artistas e aplicativos multimídia. Os pesquisadores também testaram uma variante usando uma alternativa CLIP, que lhes permitiu gerar objetos de maior resolução.
Mais exemplos e informações estão disponíveis no Página do projeto Dream Fields . O código ainda não foi publicado.