Sumário
Pesquisadores da Meta apresentam o MCC, um método que pode reconstruir um modelo 3D a partir de uma única imagem. A empresa vê aplicações em VR/AR e robótica.
Modelos de IA que dependem de arquiteturas como Transformers e grandes quantidades de dados de treinamento produziram modelos de linguagem impressionantes como os da OpenAI GPT-3 ou, mais recentemente, ChatGPT .
Os avanços no processamento de linguagem natural trouxeram um insight importante: o dimensionamento geralmente permite modelos básicos que deixam as abordagens anteriores para trás.
Os pré-requisitos são arquiteturas independentes de domínio, como transformadores que podem processar diferentes modalidades, bem como treinamento auto-supervisionado com um grande corpus de dados não rotulados.
Essas arquiteturas, em combinação com aprendizado independente de categoria em grande escala, foram aplicadas em campos fora do processamento de linguagem, como síntese de imagem ou reconhecimento de imagem.
Metas MCC traz escala para reconstrução 3D
Metas FAIR Lab agora demonstra Multiview Compressive Coding (MCC), um modelo de codificador-decodificador baseado em transformador que pode reconstruir objetos 3D a partir de uma única imagem RGB-D.
Os pesquisadores veem o MCC como um passo importante em direção a um modelo generalista de IA para reconstrução 3D com aplicações em robótica ou AR/VR, onde uma melhor compreensão de espaços e objetos 3D ou sua reconstrução visual abre inúmeras possibilidades.
Enquanto outras abordagens como NeRFs exigem várias imagens ou treinam seus modelos com modelos CAD 3D ou outros dados difíceis de obter e, portanto, não escaláveis, o Meta depende da reconstrução de pontos 3D a partir de imagens RGB-D.
Essas imagens com informações de profundidade agora estão prontamente disponíveis devido à proliferação de iPhones com sensores de profundidade e redes AI simples que obtêm informações de profundidade de imagens RGB. De acordo com a Meta, a abordagem é, portanto, facilmente escalável e grandes conjuntos de dados podem ser facilmente produzidos no futuro.
Para demonstrar as vantagens da abordagem, os pesquisadores estão treinando o MCC com imagens e vídeos com informações detalhadas de diferentes conjuntos de dados, mostrando objetos ou cenas inteiras de vários ângulos.
Durante o treinamento, o modelo é privado de algumas visualizações disponíveis de cada cena ou objeto que são usadas como um sinal de aprendizado. A abordagem é semelhante ao treinamento de modelos de linguagem ou imagem, em que partes dos dados também costumam ser mascaradas.
A reconstrução 3D do Meta mostra forte capacidade de generalização
O modelo de IA da Meta mostra em testes que funciona e supera outras abordagens. A equipe também diz que o MCC pode lidar com categorias de objetos ou cenas inteiras que nunca viu antes.
Além disso, MCC mostra as características de dimensionamento esperadas : o desempenho aumenta significativamente com mais dados de treinamento e categorias de objetos mais diversas. Imagens de iPhone, ImageNet e DALL-E 2 as imagens também podem ser reconstruídas em nuvens de pontos 3D com informações de profundidade apropriadas.
Apresentamos o MCC, um modelo de reconstrução 3D de uso geral que funciona tanto para objetos quanto para cenas. Mostramos a generalização para configurações desafiadoras, inclusive em capturas selvagens e imagens geradas por IA de objetos imaginados.
Nossos resultados mostram que um método simples baseado em pontos, juntamente com treinamento em larga escala independente de categoria, é eficaz. Esperamos que este seja um passo para a construção de um sistema de visão geral para compreensão 3D.
do papel
A qualidade das reconstruções ainda está longe da compreensão humana. No entanto, com o dimensionamento relativamente fácil possível do MCC, a abordagem pode melhorar rapidamente.
Uma variante multimodal que permite a síntese baseada em texto de objetos 3D, por exemplo, pode ser apenas uma questão de tempo. A OpenAI está buscando abordagens semelhantes com Ponto-E .
Numerosos exemplos, incluindo modelos 3D, estão disponíveis no página do projeto MCC . O código está disponível em GithubGenericName .