Google MusicLM transforma linguagem em música

O Google apresenta o MusicLM, um modelo generativo de conversão de texto em música. Ele pode gerar faixas de vários minutos a partir de prompts de texto.

Embora os modelos generativos de IA para imagens já tenham alcançado a qualidade visual de artistas humanos, os modelos para áudio e música ainda estão muito atrás. UMA “DALL-E para música” é difícil de perceber. Existem abordagens como AudioGen da Meta , Riffusão ou AudioLM do Google mas nenhum modelo de música generativa convincente ainda.

Além da complicada situação dos direitos autorais da música, a dimensão temporal é um grande desafio: as imagens são estáticas, a música muda. Dependendo da cultura, essas mudanças seguem certas regras – mas também podem ser quebradas.

MusicLM do Google gera vários minutos de música que soa decente

AudioLM é um modelo de IA generativo para linguagem, áudio e música. O AudioLM usa técnicas de modelos de linguagem em grande escala: um modelo BERT especializado em áudio (w2v-BERT) constrói tokens semânticos a partir de formas de onda de áudio que podem capturar, por exemplo, a fonética da linguagem ou melodias, harmonias ou ritmos locais. Um codificador chamado SoundStream captura os detalhes mais sutis das formas de onda de áudio em tokens acústicos e é responsável pela síntese de áudio de alta qualidade.

Agora, o Google está apresentando o MusicLM, um sistema generativo de IA que combina o AudioLM com outro modelo. Esse terceiro componente é chamado MuLan e foi treinado pelo Google usando pares de trechos de áudio de 10 segundos e descrições de texto correspondentes criadas por dez músicos profissionais. O conjunto de dados de treinamento MusicCaps de 5.500 clipes de música e descrições de texto foi publicado pelo Google.

Após o treinamento, o MusicLM prevê tokens acústicos, dados tokens de áudio MuLan e tokens semânticos w2v-BERTs. Estes são então convertidos em áudio pelo SoundStream. Usando esse método, o Google pode gerar vários minutos de música.

MusicLM pode ser controlado com melodias

Os resultados variam de uma música lenta de reggae a uma trilha sonora de jogo de fliperama, de jazz relaxante a cantos gregorianos. O MusicLM pode ser controlado com uma frase curta ou com descrições detalhadas.

Incitar

A trilha sonora principal de um jogo de arcade. É rápido e otimista, com um riff cativante de guitarra elétrica. A música é repetitiva e fácil de lembrar, mas com sons inesperados, como batidas de pratos ou tambores ruidosos.

Saída MusicLM

Incitar

Podemos ouvir um coro, cantando um canto gregoriano, e uma bateria eletrônica, criando uma batida rítmica. Os sons lentos e imponentes das cordas fornecem um pano de fundo calmante para os sons rápidos e complexos da música eletrônica futurista.

Saída MusicLM

O MusicLM também pode processar uma combinação de melodia e letra, como converter a melodia de uma peça de violão em sintetizador.

Prompt (melodia de guitarra estilo dedo)

Saída MusicLM (cabo de sintetizador eletrônico)

MusicLM ainda tem problemas com vocais, negações em prompts e sequências temporais. A equipe planeja resolver esses problemas no futuro e também planeja melhorar a qualidade do áudio gerado.

Mais informações e exemplos podem ser encontrados no página do projeto MusicLM . De acordo com o jornal, atualmente não há planos para lançar o modelo.