A nova IA de fala do Meta pode rir, gritar, bocejar e bater papo

Sumário

GSML aprende diálogos
A fala e os gestos como interface do metaverso
Leia mais sobre Inteligência Artificial:

A Meta revela uma nova pesquisa sobre IA de fala: vozes geradas por máquinas agora podem chorar, rir, bocejar ou fazer conversa fiada mais natural.

Em outubro passado, a Meta revelou seu modelo de IA de fala Generative Spoken Language Model (GSLM). Em vez de usar texto, como de costume, o modelo AI é treinado com dados de áudio não documentados de maneira auto-supervisionada.

Durante o treinamento, a IA percorre os dados de áudio sem ajuda, reconhecendo padrões neles e aprendendo a imitar os sons subjacentes para formar novas frases ou completar frases existentes. Do ponto de vista dos pesquisadores do Meta, essa forma de aprender a linguagem é comparável à dos humanos.

GSML aprende diálogos

Agora a Meta está introduzindo dois avanços na técnica usada para GSLM que deve permitir diálogos de IA mais naturais. Primeiro, a IA de fala da Meta agora pode imitar sons emocionais, como rir, bocejar ou chorar – o que é importante na comunicação para transmitir melhor a intenção e o contexto de uma declaração.

Neutro original:

IA gerada com risadas:

Neutro original:

Perfuração gerada por IA:

Neutro original:

Raiva gerada por IA:

Segundo a Meta, o novo Modelo GSML dGSML, que é otimizado para diálogos, gera diálogos de áudio com som mais natural usando agentes de IA que podem pausar para pensar ou processar sobreposições em conversas. Os agentes devem, assim, ser capazes de reconhecer pistas sociais na fala que não estão explicitamente refletidas nas palavras escolhidas de forma mais diferenciada e aderir melhor às convenções conversacionais comuns.

O dGSML foi treinado com cerca de 2.000 horas de diálogos de áudio não rotulados do conjunto de dados Fisher , que contém cerca de 16.000 conversas telefônicas em inglês. O conjunto de dados data de 2004 e os pesquisadores esperam gerar um áudio melhor com dados de treinamento de maior qualidade.

A fala e os gestos como interface do metaverso

A Meta enfatiza novamente a importância da inteligência artificial para o metaverso no contexto de sua nova pesquisa de IA: modelos de IA de áudio como os mostrados podem criar novas possibilidades de interação em combinação com, por exemplo, controle de gestos.

Os pesquisadores veem o treinamento de IA com áudio em vez de dados de texto por meio de aprendizado auto-supervisionado como um bloco de construção essencial para futuros sistemas de IA. O desenvolvimento de IA pode se afastar dos modelos tradicionais baseados em texto e, portanto, desenvolver “sistemas de IA mais naturais e envolventes do futuro.”

Como cenário de aplicação imediata para os métodos recém-apresentados, os pesquisadores citam a dublagem sem o desvio da tradução de texto, onde interpretações emocionais podem ser perdidas.

Mais exemplos de áudio de A IA do discurso emocional de Meta pode ser encontrada na página do projeto . Mais detalhes e exemplos de dGSLM podem ser encontrados aqui .

Sumário

GSML aprende diálogos

A fala e os gestos como interface do metaverso

Leia mais sobre Inteligência Artificial:

Artigos Relacionados