Comprima e reconstrua com IA: Meta Encodec pode compactar arquivos de áudio muito melhor do que MP3 a 64 kb/s e manter alta qualidade comparável ao original.
A Meta chama o Encodec de “hipercompressão alimentada por IA” para arquivos de áudio. O sistema de três estágios primeiro comprime o áudio para um determinado tamanho de destino e depois reconstrói a forma de onda. Todos os processos acontecem em tempo real em um único núcleo de CPU.
- O codificador transforma dados brutos em dimensões maiores a uma taxa de quadros menor.
- O quantizador comprime para o tamanho alvo especificado no nível MP3.
- O decodificador converte o sinal comprimido de volta em uma forma de onda que mais se assemelha ao áudio original.
A chave com o decodificador é identificar as mudanças que não podem ser percebidas pelos humanos, já que “a reconstrução perfeita é impossível em baixas taxas de bits”, escreve Meta.
Meta depende do abordagem discriminadora conhecida das redes GA para decodificação : o modelo de compressão gera amostras que são avaliadas por um discriminador como reais ou geradas. Se o discriminador reconhecer a amostra como gerada, o modelo de compressão altera sua saída até que o discriminador considere o resultado genuíno. Isso resulta em um “jogo de gato e rato” que aumenta a qualidade do áudio, de acordo com a Meta.
IA supera o código manuscrito
Codecs clássicos escritos por humanos para codificação e decodificação, como MP3, Opus e EVS, “provavelmente estão atingindo os limites do que podem nos dar”, escreve Meta AI. O Encodec, por outro lado, pode reconstruir áudio de baixa taxa de bits (64 kb/s) sem perda de qualidade e tem potencial para melhorias adicionais, afirmam os pesquisadores.
Alcançamos uma taxa de compressão aproximada de 10x em comparação com MP3 a 64 kbps, sem perda de qualidade. Embora essas técnicas tenham sido exploradas antes para fala, somos os primeiros a fazê-las funcionar para áudio estéreo amostrado de 48 kHz (ou seja, qualidade de CD), que é o padrão para distribuição de música.
A equipe de pesquisa também treinou um pequeno modelo de linguagem baseado em Transformer, com o objetivo de executar compactação e descompactação de ponta a ponta mais rapidamente do que em tempo real em um único núcleo de CPU. O uso do transformador pode economizar 40% de largura de banda adicional, mantendo a qualidade se a latência não for crítica, como no streaming de música, escrevem os pesquisadores.
Na avaliação humana da qualidade de áudio de vários métodos de compressão, incluindo Lyra-v2 baseado em IA do Google o Encodec teve o melhor desempenho, aqui em particular a variante baseada no Transformer.
Meta AI acredita que a compressão AI pode ficar ainda melhor
À medida que os serviços de streaming de música e vídeo HD para dispositivos móveis se tornam mais difundidos, a importância da compactação eficiente está ganhando força, escrevem os pesquisadores. A compressão AI ainda não atingiu seus limites, de acordo com a equipe. Além disso, chips em smartphones ou notebooks podem ser otimizados para suportar a compactação e descompactação de arquivos consumindo menos energia.
No futuro, a Meta planeja explorar a compressão de áudio espacial para VR e AR, que envolve a compressão de vários canais de áudio enquanto preserva as informações espaciais. No início deste verão, A Meta já revelou um modelo de IA de código aberto para gerar áudio espacial para AR e VR .
Meta’s O código do encodec está disponível no Github . A Meta também planeja usar IA para compactar vídeo em um próximo projeto de pesquisa.