Nvidia e Stanford mostram 3D GAN para melhores imagens falsas

Nvidia e Stanford mostram GANs 3D que podem gerar imagens sintéticas ainda melhores e, pela primeira vez, reconstruções 3D.

Usadas para deepfakes, entre outras coisas, as Generative Adversarial Networks agora geram imagens fotorrealistas de pessoas, animais, cadeias de montanhas, praias ou comida. Um dos sistemas mais poderosos vem de nvidia e é chamado StyleGAN. No entanto, este sistema e modelos semelhantes de IA não podem gerar representações 3D no hardware atual.

Essas representações 3D têm duas vantagens: ajudam a gerar várias imagens de uma pessoa sintética de diferentes ângulos e também podem servir de base para um modelo 3D da pessoa.

Isso porque, nas GANs 2D tradicionais, as imagens de diferentes ângulos da mesma pessoa sintética costumam apresentar mudanças na representação: às vezes uma orelha é diferente, um canto da boca fica distorcido ou a área dos olhos fica diferente.

A mais recente variante StyleGAN da Nvidia, StyleGAN3, alcançou maior estabilidade, mas ainda está longe de um resultado natural. A rede não armazena informações 3D e, portanto, não pode manter a exibição estável de vários ângulos de visão.

Três camadas em vez de NeRFs e voxels

Por outro lado, outros métodos, como os Neural Radiance Fields (NeRFs) do Google, podem aprender representações 3D e, posteriormente, gerar novos pontos de vista com alta estabilidade na representação.

Para isso, os NeRFs contam com redes neurais, nas quais uma representação 3D implícita do objeto aprendido é formada durante o treinamento. O design contrário à representação implícita aprendida é a representação explícita de uma grade de voxels.

Ambos os métodos têm vantagens e desvantagens: Consultas de ponto de vista para grades de voxels são processadas rapidamente; para NeRFs, isso leva várias horas, dependendo da arquitetura. As grades Voxel, por outro lado, consomem muita memória em altas resoluções, enquanto os NeRFs são eficientes em termos de memória devido à sua representação 3D implícita como uma função.

Pesquisadores da Universidade de Stanford e da Nvidia estão agora demonstrando uma abordagem híbrida (Efficient Geometry-aware 3D Generative Adversarial Networks, EG3D) que combina representações explícitas e implícitas, tornando-a rápida e dimensionada com eficiência com resolução.

O 3D GAN EG3D da Nvidia precisa de apenas uma imagem

A equipe conta com uma representação 3D de três planos, em vez de uma grade de voxels completa. O módulo de três planos é conectado atrás de uma malha do gerador StyleGAN2 e armazena a saída do gerador.

Um renderizador neural decodifica as informações armazenadas e as passa para um módulo de super-resolução. Isso dimensiona a imagem pequena de 128 por 128 Pixels para 512 por 512 Pixels. As imagens também contêm as informações de profundidade representadas nas três camadas.

Vídeo: via Matthew Aaron Chan

O resultado é um GAN 3D que pode gerar imagens consistentes de, digamos, uma pessoa de diferentes ângulos e um modelo 3D. O EG3D também pode gerar uma reconstrução 3D correspondente a partir de uma única imagem. Nos exemplos mostrados, a qualidade dos resultados supera a de outros GANs e até mesmo de outros métodos, como NeRFs.

Vídeo: via Matthew Aaron Chan

Os pesquisadores apontam limitações com detalhes finos, como dentes individuais, e planejam melhorar sua IA lá. Eles também dizem que é possível trocar módulos individuais e reequipar o sistema para gerar imagens direcionadas via texto, por exemplo.

Por fim, a equipe alerta para o potencial uso indevido do EG3D: a reconstrução 3D baseada em uma única imagem pode ser usada para deepfakes. Mais informações e exemplos estão disponíveis no página do projeto EG3D .