Google mostra modelo de IA generativa para fala e música

O AudioLM do Google usa técnicas de grandes modelos de linguagem para completar frases faladas, gerar uma nova fala – ou continuar a música de piano.

Grandes modelos de linguagem como o GPT-3 da OpenAI transformam sua entrada de texto nos chamados tokens, que podem ser processados ​​pelo modelo e usados ​​para geração de texto, por exemplo.

Baseando-se em tokens, bem como no mecanismo de atenção dos blocos transformadores utilizados, os modelos podem processar determinadas informações sintáticas e semânticas.

Modelos baseados em texto para processamento de linguagem natural têm sido tão bem-sucedidos que abordagens semelhantes estão sendo usadas em outras áreas. Uma dessas áreas é chamada de “PLN sem texto” e trata do processamento de linguagem sem texto.

Um exemplo é o Generative Spoken Language Model (GSLM) da Meta, que foi treinado com dados de áudio não documentados. o variante dGSLM que foi lançado em abril de 2022 e otimizado para diálogos, pode até imitar risadas ou bocejos.

AudioLM do Google gera fala e música

O AudioLM do Google adota uma abordagem semelhante para garantir áudio coerente de alta qualidade e longo prazo. Para fazer isso, a equipe usa várias técnicas do campo de modelos de linguagem, incluindo uma variante do codificador do modelo de linguagem BERT do Google especializado em áudio.

Os pesquisadores primeiro constroem tokens semânticos a partir de formas de onda de áudio brutas, que o Google diz capturar dependências locais, como fonética da fala ou melodia local na música de piano. Eles também podem processar estruturas globais de longo prazo, como sintaxe da linguagem, conteúdo semântico, harmonia ou ritmo.

Este processo é adicionalmente suportado por outro codificador (SoundStream), que processa tokens acústicos, capturando detalhes da forma de onda de áudio e permitindo síntese de alta qualidade. De acordo com o Google, ambos os codificadores trabalhando juntos resultam em alta qualidade de áudio e consistência de longo prazo. Os tokens são então convertidos em áudio por um decodificador SoundStream.

AudioLM: Google alerta contra uso indevido

O Google AudioLM foi treinado com 60.000 horas de fala em inglês e outra variante foi treinada com 40.000 horas de música de piano. Ambos os modelos usam tokens semânticos e acústicos e podem continuar a fala e a música de alto-falantes e peças inéditas após o treinamento.

Discurso – Original

Idioma – Solicitação

Idioma – Conclusão

Música – originais

Música – indicação

Música – Conclusão

A capacidade do modelo de continuar vozes e replicar condições de gravação com qualidade comparativamente alta levanta novas questões sobre o futuro de tais sistemas de IA.

O AudioLM herda todas as preocupações sobre modelos de linguagem para texto, como refletir os preconceitos sociais nos dados subjacentes, disseram os pesquisadores.

Além disso, a “capacidade de continuar segmentos curtos de fala, mantendo a identidade e a prosódia do locutor, pode levar a casos de uso maliciosos, como falsificação de identificação biométrica ou personificação de um locutor específico”, afirma o documento.

O Google, portanto, treinou outro modelo de IA, que pode reconhecer de forma confiável trechos de áudio sintetizados pelo AudioLM. O modelo AudioML ainda não está disponível.

Mais exemplos e comparações com diferentes variantes estão disponíveis no página do projeto AudioLM .