Meta apresenta novas pesquisas sobre inteligência artificial para áudio metaverso realista. Os sistemas de áudio treinados multimodais avaliam as informações visuais e ajustam automaticamente o som.
O Meta’s Reality Labs, juntamente com a Universidade do Texas, revela novos modelos de IA projetados para otimizar o som em VR e AR com base em dados visuais. A IA é crítica para uma qualidade de som realista no Metaverse, escreve a empresa.
IA multimodal para combinar som e imagem
A Meta está lançando três novos modelos de IA como código aberto: correspondência visual-acústica, desreverberação visualmente informada e voz visual. Todos os três modelos, em última análise, envolvem um AI moldando automaticamente o som para corresponder à informação visual. Essa interação multimodal de áudio, vídeo e texto é o foco da pesquisa recém-apresentada.
“Os modelos de IA existentes fazem um bom trabalho de compreensão de imagens e estão melhorando na compreensão de vídeo. No entanto, se quisermos construir experiências novas e imersivas para AR e VR, precisamos de modelos de IA multimodais – modelos que podem receber sinais de áudio, vídeo e texto de uma só vez e criar uma compreensão muito mais rica do ambiente”, disse Meta. equipe de pesquisa escreve.
Por exemplo, se um AI detecta que um som está vindo de uma caverna, ele pode adicionar automaticamente a reverberação apropriada (correspondência visual-acústica). Um exemplo de desreverberação visual-acústica está combinando o som do conteúdo existente com o espaço atual, em vez do som do espaço onde o conteúdo foi gravado originalmente.
Por exemplo, a paisagem sonora de uma performance teatral gravada pode ser processada como se estivesse sendo executada ao vivo no espaço atual durante uma projeção AR. A IA também deve ser capaz de remover automaticamente o ruído de fundo indesejado da trilha sonora original, de acordo com os pesquisadores.
Melhores experiências de shows no Metaverso
Outro exemplo de aplicação, segundo Meta, é a visita virtual a um show. No metaverso, os avatares podiam inicialmente ouvir sons abafados fora da sala de concertos, que se tornavam cada vez mais claros à medida que se aproximavam do palco.
O truque do metaverso: o diálogo pode permanecer claramente audível apesar do aumento do volume do ambiente, como se as pessoas estivessem próximas umas das outras sem música alta de fundo. O áudio AI também pode focar o áudio em pequenos grupos, por exemplo, para que as vozes não se sobreponham (voz visual).
Trabalhando juntos, esses sistemas de áudio poderão um dia permitir que “assistentes inteligentes” entendam melhor o que estamos dizendo a eles – mesmo em um show barulhento ou em uma festa selvagem.
A Meta está lançando os três modelos de IA como código aberto. Papel, modelos e mais informações estão disponível no blog de IA da Meta .