Baidu mostra ERNIE-Music – um avanço para text-to-waveform?

Pesquisadores chineses coletaram dados de comentários da Internet para treinar o ERNIE-Music, um modelo generativo de texto para forma de onda.

Gerar música a partir de texto ainda é um grande desafio. Existem várias razões para isso, mas uma das principais é a falta de uma massa crítica de dados de treinamento. Para desenvolver tal modelo de texto-música, é preciso não apenas a música em si, mas, mais importante, uma rotulagem dos dados correspondentes em forma de texto.

Alguns métodos tentam contornar esse problema, como Riffusão que usa Stable Diffusion para gerar diretamente imagens de música em forma de onda e depois convertê-las em trechos audíveis.

Pesquisadores da empresa chinesa de Internet Baidu agora apresentam uma possível solução para a escassez de dados e o modelo gerador de forma de onda ERNIE-Music.

As avaliações positivas equivalem a bons dados de treinamento?

De acordo com a equipe, o ERNIE-Music é o primeiro modelo de IA a gerar música em forma de onda a partir de texto livre. O Baidu coleta os dados necessários das plataformas de música chinesas – o jornal não especifica quais.

No total, a equipe coletou 3.890 pares texto-música. Os textos vêm de comentários populares nas plataformas de música e costumam descrever características das faixas de 20 segundos, segundo os pesquisadores.

“Pela nossa observação, os ‘comentários populares’ são geralmente de qualidade relativamente alta e geralmente contêm muitas informações úteis relacionadas à música, como instrumentos musicais, gêneros e humores humanos expressos”, afirma o jornal.

O Baidu usa os dados para treinar o modelo de difusão de música ERNIE para sintetizar formas de onda a partir de descrições de texto. A música resultante tem uma grande variedade de melodias e emoções, bem como instrumentos como piano, violino, erhu e violão.

Para avaliar o ERNIE-Music, a equipe conta com o feedback humano de dez pessoas que comparam a música gerada pelo ERNIE-Music com outros modelos, como Mubert , Text-to-Symbolic Music e Musica. O modelo da equipe chinesa tem o melhor desempenho nesses benchmarks.

A Baidu também está investigando se o treinamento de texto de formato livre realizado para o ERNIE-Music produz melhores resultados do que o treinamento com palavras-chave relevantes extraídas do texto, como “piano, violino, gentil, melancólico”. De fato, os pesquisadores conseguiram mostrar que o formato de texto escolhido para treinamento tem efeito e que o modelo treinado com texto de formato livre tem um desempenho significativamente melhor em comparação.

Os resultados mostram que nosso modelo de geração condicional baseado em texto de forma livre cria música diversa e coerente e supera trabalhos relacionados em qualidade de música e relevância de música de texto.

do papel

O “DALL-E for music” está chegando agora?

Então, como devemos classificar as descobertas dos pesquisadores do Baidu? Estamos um passo mais perto de um ” DALL-E para música “? Infelizmente, a equipe não forneceu nenhuma amostra de áudio ou código-fonte, então uma avaliação independente ainda está pendente. Mas a abordagem do Baidu aposta no treinamento end-to-end com pares de dados multimodais, que tem sido extremamente bem-sucedido na síntese de imagens e também oferece uma solução comparativamente simples para coletá-las para música.

No entanto, a quantidade de dados coletados aqui é pequena em comparação com o que é necessário, e resta saber se o método pode ser dimensionado para mais músicas e outros idiomas. Tal escalonamento provavelmente também levará a discussões de direitos autorais como com modelos de imagem – exceto que os músicos têm um lobby muito maior por meio de suas gravadoras.