Sumário
Como parte do projeto Massively Multilingual Speech, a Meta está lançando modelos de IA que podem converter linguagem falada em texto e texto em fala em 1.100 idiomas.
O novo conjunto de modelos é baseado no wav2vec da Meta, bem como em um conjunto de dados com curadoria de exemplos para 1.100 idiomas e outro conjunto de dados sem curadoria para quase 4.000 idiomas, incluindo idiomas falados por apenas algumas centenas de pessoas para as quais ainda não existe tecnologia de fala, de acordo com Meta.
O modelo pode se expressar em mais de 1.000 idiomas e identificar mais de 4.000 idiomas. Segundo a Meta, o MMS supera os modelos anteriores ao abranger dez vezes mais idiomas. você pode obter um visão geral de todos os idiomas disponíveis aqui.
Novo Testamento recebe novo uso como conjunto de dados de IA
Um componente chave do MMS é a Bíblia, especificamente o Novo Testamento. O conjunto de dados Meta contém leituras do Novo Testamento em mais de 1.107 idiomas com duração média de 32 horas.
Meta usou essas gravações em combinação com passagens correspondentes da Internet. Além disso, outros 3.809 arquivos de áudio não rotulados foram usados, também leituras do Novo Testamento, mas sem informações adicionais sobre o idioma.
Como 32 horas por idioma não é material de treinamento suficiente para um sistema confiável de reconhecimento de fala, a Meta usou wave2vec 2.0 para pré-treinar modelos MMS com mais de 500.000 horas de fala em mais de 1.400 idiomas. Esses modelos foram então ajustados para entender ou identificar vários idiomas.
Os benchmarks mostram que o desempenho do modelo permaneceu quase constante, apesar do treinamento com muito mais idiomas diferentes. Na verdade, a taxa de erro diminuiu minimamente em 0,4 pontos percentuais com o aumento do treinamento.
De acordo com a Meta, também é significativamente menor do que o Whisper da OpenAI, que não foi explicitamente otimizado para o multilinguismo extensivo. Uma comparação apenas em inglês seria mais interessante. Os primeiros testadores no Twitter relatam que o Whisper tem um desempenho melhor aqui.
Em meus testes, ele tem um desempenho pior do que o Whisper para transcrição de texto, ouvindo palavras incorretamente e não ouvindo pontuação implícita. Além disso, é cerca de 10 vezes mais lento que o Faster-Whisper. O Fairseq usa 20 GB de RAM, enquanto o Whisper usa cerca de 1 GB. Por estas e outras razões esta é…
— catid (e/acc) (@MrCatid) 23 de maio de 2023
O fato de as vozes no conjunto de dados serem predominantemente masculinas não afeta negativamente a compreensão ou geração de vozes femininas, de acordo com Meta.
Além disso, o modelo não tende a gerar um discurso excessivamente religioso. Meta atribui isso à abordagem de classificação usada (Classificação Temporal Conexionista), que se concentra mais nos padrões e sequências de fala do que no conteúdo e significado das palavras.
Meta adverte, no entanto, que o modelo às vezes transcreve palavras ou frases incorretamente, o que pode levar a declarações incorretas ou ofensivas.
Um modelo para milhares de idiomas
O objetivo de longo prazo da Meta é desenvolver um modelo de idioma único para o maior número possível de idiomas, a fim de preservar os idiomas ameaçados. Modelos futuros podem suportar ainda mais idiomas e até dialetos.
“Nosso objetivo é tornar mais fácil para as pessoas acessar informações e usar dispositivos em seu idioma preferido”, escreve Meta. Cenários de aplicativos específicos incluem tecnologias ou mensagens VR e AR.
No futuro, um único modelo poderá ser treinado para todas as tarefas, como reconhecimento de fala, síntese de fala e identificação de fala, levando a um desempenho geral ainda melhor, escreve Meta.
O código, os modelos MMS pré-treinados com 300 milhões e um bilhão de parâmetros, respectivamente, e as derivações refinadas para reconhecimento e identificação de fala e text-to-speech são disponibilizados pela Meta como Modelos de código aberto no Github.