Sumário
Os pesquisadores de IA da Meta demonstram um sistema que pode prever quais palavras uma pessoa ouviu a partir de dados de MEG e EEG.
Mais de 60 milhões de pessoas sofrem lesões cerebrais traumáticas todos os anos. Muitos deles não podem mais se comunicar com seu ambiente depois.
Numerosos projetos estão procurando uma maneira de ajudar as pessoas afetadas. Uma abordagem é decodificar a atividade cerebral em fala: em vez de falar, digitar ou usar gestos, um dispositivo de medição lê a atividade cerebral e a traduz em fala.
Existem diferentes métodos invasivos e não invasivos para fazer isso. A estereoeletroencefalografia ou eletroencefalografia fornecem leituras mais precisas, às vezes alcançando mais de 90% de precisão na atribuição de letras individuais. No entanto, eles requerem intervenção neurocirúrgica.
Métodos não invasivos baseados em eletroencefalografia (EEG) ou magnetoencefalografia (MEG) não requerem procedimentos perigosos, mas fornecem dados menos precisos.
Meta pesquisa semelhanças entre IA e cérebro humano
Em um novo trabalho de pesquisa, uma equipe da Meta agora apresenta um sistema de IA que pode identificar quais palavras os indivíduos ouviram com um grau relativamente alto de precisão usando dados do MEG.
O trabalho faz parte de um esforço de pesquisa maior da empresa: a Meta quer aprender mais sobre o cérebro humano para desenvolver uma inteligência artificial melhor.
O projeto é liderado por Jean-Remi King, pesquisador do CNRS na Ecole Normale Supérieure e pesquisador da Meta AI. A equipe de King mostrou no final do ano passado que pode prever as respostas do cérebro humano à linguagem com base nas ativações de um modelo de linguagem GPT-2 em resposta às mesmas histórias .
Então, em um artigo publicado em junho, a equipe de King comparou um Modelo de IA treinado com gravações de fala para gravações fMRI de mais de 400 pessoas ouvindo audiolivros . De acordo com os pesquisadores, a maioria das áreas do cérebro se correlacionou significativamente com as ativações do algoritmo em resposta à mesma entrada de fala. O algoritmo de IA aprendeu representações semelhantes ao cérebro, concluiu a equipe.
Meta decodifica MEG com inteligência artificial
No trabalho agora publicado, a equipe de King se baseia no trabalho feito em junho: o modelo Wav2Vec treinado lá com 600 horas de gravações de fala extrai uma representação de uma gravação de fala de três segundos e aprende a mapear essas representações para representações correspondentes da atividade cerebral do MEG e EEG.
As representações das atividades cerebrais são fornecidas por um módulo cerebral treinado com quase 150 horas de gravações de MEG e EEG de 169 pessoas.
Após o treinamento, o O modelo de IA pode identificar qual clipe de um grande conjunto de clipes de áudio a pessoa estava ouvindo com base em um trecho de atividade cerebral. Para conseguir isso, o algoritmo deriva as palavras que a pessoa provavelmente ouviu.
O sistema AI da Meta atinge uma precisão de até 73% em 793 palavras possíveis para gravações MEG. Portanto, entre dez palavras sugeridas, há 72% de probabilidade da palavra correta. Em até 44% dos casos, a palavra correta foi a primeira sugestão. Em mais de 50 por cento dos casos, estava entre as duas primeiras sugestões.
Próximo passo: cérebro para linguagem – sem intervenção
A pesquisa de Meta tem inúmeras limitações. Por exemplo, a precisão de EEGs mais portáteis é inferior a 32 ou até 20 por cento. Além disso, a equipe da Meta não decodifica pensamentos em linguagem, mas tenta identificar quais palavras uma pessoa ouviu. Isso não é suficiente para uma comunicação sólida.
Ainda assim, a pesquisa é um passo importante porque mostra que a IA pode aprender com sucesso a decodificar gravações ruidosas e não invasivas da atividade cerebral durante a percepção da fala, disse Meta.
Além disso, o sistema ficou melhor com mais dados de treinamento e a precisão alcançada não exigia uma personalização demorada para os indivíduos. Mais dados poderiam adicionar a este efeito.
No final, os requisitos de hardware também não foram um problema. Os dispositivos MEG usados aqui não são portáteis, mas MEGs vestíveis estão sendo desenvolvidos e alguns já estão em uso.
O próximo passo, dizem os pesquisadores, agora é estender a abordagem para decodificar a fala diretamente da atividade cerebral – sem passar por um conjunto de clipes de áudio.