Sony mostra sintetizador neural GANstrument

Pesquisadores de IA da Sony mostram o GANstrument, um sintetizador neural que transforma sons de entrada arbitrários em sons de instrumentos.

Sistemas de IA generativos, como DALL-E 2 , meio da jornada ou Difusão estável estão atualmente agitando as artes visuais. Os sistemas de texto para imagem permitem resultados impressionantes, mesmo com entradas de texto simples.

Sistemas comparativamente poderosos ainda não existem na música. Mas aqui, também, projetos recentes como o modelo generativo de conversão de texto em música do A startup norte-americana Mubert mostrar onde a jornada pode levar.

Além da síntese de música de ponta a ponta, há um segundo foco no campo de pesquisa: a síntese de notas individuais que são reproduzidas em um formato simbólico como MIDI (Musical Instrument Digital Interface). Isso permite o controle independente de MIDI e timbre e, portanto, o processo é compatível com fluxos de trabalho de produção na indústria musical.

Em um novo artigo, pesquisadores de IA da Sony estão demonstrando o GANstrument, um sintetizador neural para sons de instrumentos.

GANstrument: Sony mostra sintetizador neural baseado em GAN

Atualmente, sons de instrumentos realistas são sintetizados com samplers que usam sons gravados. Embora qualquer material sonoro possa ser usado, é difícil sintetizar um timbre completamente novo ou combinar vários sons de maneira inteligente, disse a Sony. Modelos generativos de IA para síntese de áudio, no entanto, mostraram que a IA pode criar e misturar uma variedade de timbres.

A equipe de pesquisa, portanto, visa desenvolver um sintetizador neural que combina a flexibilidade dos samplers clássicos com o poder generativo das redes neurais. Com essa ferramenta, os usuários poderiam controlar livremente o timbre com base no material sonoro existente.

Para seu sintetizador neural, a Sony usa uma GAN (Generative Adversarial Network), que é treinada com formas de onda transformadas em espectrogramas Mel. A equipe conta com o chamado condicionamento de instância em vez do condicionamento de classe, que geralmente é usado no treinamento GAN.

O condicionamento de classe classifica os dados em diferentes distribuições sem sobreposição, enquanto o condicionamento de instância classifica os dados em muitas distribuições locais sobrepostas.

GANstrument pode transformar um galo em uma peça de violoncelo

Juntamente com outras melhorias, como um extrator de recursos que é invariável para o tom, o GANstrument obtém sons sintetizados melhores e mais diversos, bem como uma generalização para diferentes entradas de som, escreve a equipe. Após o treinamento, GANstrument pode transformar, por exemplo, sons de flauta em sons de metais ou sons de órgão em sons de guitarra.

Flauta

Latão

Interpolação (Entrada 1 a 2)

O sistema AI também pode misturar suavemente diferentes instrumentos e, assim, mesclar dois instrumentos de entrada em uma faixa, por exemplo.

Melodia (marreta para palheta)

Entrada 1

Entrada 2

Interpolação (Entrada 1 a 2)

O sistema também funciona com sons de entrada que nunca ouviu antes. Ele pode transformá-los em sons de instrumentos conhecidos ou alterar o tom da entrada. O GANstrument pode, portanto, também converter o canto de um galo ou o miado de um gato em sons de diferentes tons.

Frango Galo

Passo 48

Passo 55

Passo 60

De acordo com a Sony, o GANstrument gera um som em 1,62 segundos em uma CPU Intel Core i7-7800X.

Nosso novo sintetizador neural, GANStrument, gera sons de instrumentos agudos refletindo o timbre de entrada de uma só vez em um tempo interativo. Ele incorpora dois recursos principais: 1) condicionamento de instância, resultando em melhor qualidade de geração e capacidade de generalização para várias entradas e 2) extração de recursos invariantes de pitch com base no treinamento adversário, resultando em precisão de pitch e consistência de timbre significativamente melhoradas.

sony

Os autores acreditam que o GANstrument pode produzir novos sons de instrumentos e tornar os timbres desejados livremente exploráveis ​​usando uma variedade de materiais sonoros. Outros exemplos podem ser encontrados no página do projeto GANstrument .