Sumário
Pesquisadores criam música a partir de texto por meio de um desvio de Stable Diffusion.
Apesar do impacto significativo que os modelos generativos de IA tiveram nas indústrias de texto e imagem, a indústria da música ainda não viu uma transformação tão drástica.
No entanto, ainda existem exemplos de uso de modelos generativos de IA em áudio, como Riffusão, um gerador de IA desenvolvido pelo empresário Seth Forsgren e pelo engenheiro Hayk Martiros. Com base no modelo Stable Diffusion de código aberto, originalmente projetado para imagens, o Riffusion demonstra o potencial da IA para moldar o futuro da criação musical.
A Stable Diffusion gera espectrogramas, que então se tornam música
O Riffusion oferece uma abordagem direta para a geração de música através do uso do Stable Diffusion v1.5, que gera imagens de ondas sonoras, que são então convertidas em música. O modelo é apenas ajustado com imagens de espectrogramas, em vez de retreinado, escrevem os desenvolvedores.
Um espectrograma é uma representação visual do conteúdo de uma seção de som. O eixo x representa o tempo, o eixo y representa a frequência. A cor de cada Pixel indica a amplitude do som naquele ponto.
Vídeo: Riffusion
A difusão pode criar infinitas variações de um prompt variando a semente. Todas as técnicas conhecidas da Stable Diffusion, como img2img, inpainting ou prompts negativos, estão prontas para uso.
Ao fornecer prompts, seja criativo! Experimente seus estilos favoritos, instrumentos como saxofone ou violino, modificadores como árabe ou jamaicano, gêneros como jazz ou rock, sons como sinos de igreja ou chuva ou qualquer combinação. Muitas palavras que não estão presentes nos dados de treinamento ainda funcionam porque o codificador de texto pode associar palavras com semântica semelhante.
Quanto mais próximo o espírito de um prompt estiver da imagem-semente E BPM, melhores serão os resultados. Por exemplo, um prompt para um gênero com BPM muito mais rápido do que a imagem inicial resultará em um áudio genérico e ruim.
Riffusão
Experimente o Riffusion gratuitamente
Você pode experimentar o Riffusion diretamente no website oficial sem registro. As configurações são limitadas a cinco imagens de sementes diferentes, que afetam os padrões melódicos e quatro níveis de redução de ruído. Quanto mais alto você escolher o fator de redução de ruído, mais criativo será o resultado, mas menos atingirá a batida.
Riffusion Demo – Prompt: “Um crânio robótico com uma rede neural meio vista no cérebro e um violino no ombro”.
O Riffusion permite que os usuários compartilhem suas batidas geradas com outras pessoas por meio de um link ou baixem um trecho de cinco segundos no formato MP3 para posterior processamento em software de áudio. Os sons gerados pelo usuário também podem ser encontrados no Riffusion subreddit .
Além disso, os usuários podem criar seus próprios modelos Riffusion personalizados treinados em artistas ou bandas específicas, como como a banda Rammstein (com exemplos de som disponíveis ). Embora o som gerado possa não ser da mais alta qualidade, o estilo distinto da banda escolhida é claro. Um tutorial sobre como criar esses modelos personalizados pode ser encontrado no Reddit .