Imagem para texto para música com interrogator CLIP e Mubert API

2022 é o ano dos sistemas text-to-X. A empresa Mubert agora está se aventurando em um sistema de IA generativo que cria música com base na entrada de texto. Ainda está em sua infância.

Fundada em 2017, a startup americana Mubert é especializada em IA generativa para música isenta de royalties. O aplicativo de texto para música de Mubert é uma primeira tentativa de IA generativa que gera música a partir de entrada de texto.

UMA versão demo em Huggingface permite que os usuários insiram o prompt, a partir do qual o sistema extrai palavras-chave individuais e as combina com a marcação interna de clipes de som gravados, montando uma peça de até 100 segundos de duração. Humanos gravaram os sons, então não é música gerada por IA no sentido estrito, mas peças geradas por IA compostas de clipes de áudio humanos.

O prompt de entrada e as tags Mubert API são codificados para vetores de espaço latente de uma rede neural transformadora. Em seguida, o vetor de tags mais próximo é selecionado para cada prompt e as tags correspondentes são enviadas para nossa API para geração de música.

Mubert

O controle por meio de prompts de texto, portanto, não é tão detalhado quanto conhecido em AIs de imagem comuns. Parece ser antes uma interface alternativa ao interface de geração que a Mubert já oferece em seu site. O vídeo a seguir mostra algumas demonstrações.

Da imagem ao prompt para a música

O serviço de som AI de Mubert torna-se multimídia quando combinado com imagens. O usuário do Twitter Sylvain Filoni desenvolveu um aplicativo HuggingFace para essa finalidade: ele gera um prompt que é extraído de uma imagem por meio de interrogador CLIP . Esse prompt, por sua vez, torna-se uma pequena peça musical por meio da API Mubert. Em um exemplo de sucesso, soa assim.

Infelizmente, o som gerado nem sempre corresponde à imagem. O clipe a seguir, que criei para a capa deste artigo, é mais melancólico do que alegre e colorido.

O nível de dificuldade é reconhecidamente alto porque o robô está segurando uma tuba, então você provavelmente espera ouvir uma tuba. No entanto, o CLIP Interrogator identifica apenas um “instrumento musical”. No entanto, palavras como “arte funk”, “borbulhante” ou “trombetas alegres” aparecem no prompt, o que poderia muito bem ter sido traduzido em música. Uma segunda tentativa com a mesma imagem também produz um resultado totalmente diferente, que também não condiz com o assunto, pelo menos na minha opinião. É aqui que a API Mubert atinge seus limites.

No entanto, é uma experiência interessante e uma indicação do que está por vir. Foi apenas no início de outubro que Meta introduziu “AudioGen” , um sistema de IA que pode gerar novos sinais de áudio do zero para corresponder a uma entrada de texto. O sistema ainda não foi projetado para música, mas isso pode ser apenas uma questão de tempo.