Whisper: OpenAI lança modelo de reconhecimento de fala de código aberto

O novo modelo de código aberto da OpenAI, “Whisper”, pode transcrever vários idiomas e servir como base para aplicativos de áudio.

Whisper foi treinado com 680.000 horas de dados de áudio e multitarefa (por exemplo, transcrição, tradução, música de fundo, etc.). O modelo baseado no Transformer prova que esse extenso treinamento de dados torna o reconhecimento de fala mais robusto para sotaques, ruído de fundo e fala técnica, de acordo com a OpenAI.

O Whisper suporta reconhecimento, transcrição e tradução em diferentes idiomas, bem como a identificação de um idioma. Em inglês, que representou cerca de dois terços do conjunto de dados de treinamento, diz-se que a capacidade de reconhecimento de fala do Whipser se aproxima dos níveis humanos.

OpenAI destaca capacidade zero-shot

No benchmark de reconhecimento de fala LibriSpeech, o Whisper não corresponde ao desempenho de modelos de fala AI menores e especializados, como aqueles treinados com pares de áudio-texto especificamente para esse benchmark.

No entanto, OpenAI destaca Whisper’s capacidade de disparo zero sem ajuste prévio, graças ao qual o modelo tem uma taxa de erro 50% menor do que os sistemas mencionados anteriormente quando testado em muitos conjuntos de dados. O Whisper é “muito mais robusto” do que os modelos de reconhecimento de fala focados no LibriSpeech, de acordo com a OpenAI.

Essas medições se aplicam ao reconhecimento de fala em inglês. A taxa de erro aumenta para idiomas sub-representados no conjunto de dados. Além disso, a OpenAI alerta que o Whisper pode transcrever palavras que não foram faladas: A empresa atribui isso ao áudio ruidoso incluído no treinamento de dados.

O Whisper pode servir como base para aplicativos de transcrição em tempo real

OpenAI faz Whisper disponível gratuitamente no Github como um modelo de código aberto . A empresa diz que está lançando o Whisper principalmente para pesquisa e como base para trabalhos futuros em um melhor reconhecimento de fala.

De acordo com a OpenAI, os modelos Whisper não podem ser usados ​​prontamente para aplicativos de reconhecimento de fala. Mas a velocidade e a escala dos modelos provavelmente possibilitaram o desenvolvimento de aplicativos que fornecem reconhecimento e tradução de fala em tempo real. A velocidade e a precisão do Whisper são a base para aplicações de transcrição e tradução automáticas acessíveis de grandes quantidades de dados de áudio, disse a OpenAI.

É possível que a OpenAI também use o Whisper para seus próprios propósitos: a empresa precisa de grandes quantidades de texto para modelos de linguagem de treinamento como GPT-3 e, em breve, GPT-4 . Ao transcrever automaticamente os arquivos de áudio, o OpenAI teria acesso a ainda mais dados de texto.