Sumário
Pesquisadores mostram como a Stable Diffusion pode ler mentes. O método reconstrói imagens de fMRI com incrível precisão.
Os pesquisadores têm usado modelos de IA para decodificar informações do cérebro humano há anos. Em sua essência, a maioria dos métodos envolve o uso de imagens fMRI pré-gravadas como entrada para um modelo de IA generativo para texto ou imagens.
No início de 2018, por exemplo, um grupo de pesquisadores do Japão demonstrou como uma rede neural reconstruía imagens de gravações fMRI. Em 2019, um grupo reconstruiu imagens de neurônios de macacos e O grupo de pesquisa da Meta, liderado por Jean-Remi Kingpublicou um novo trabalho que deriva texto de dados fMRI, por exemplo.
Em outubro de 2022, uma equipe da Universidade do Texas, em Austin, mostrou que os modelos GPT podem inferir textos que descreve o conteúdo semântico que uma pessoa viu em um vídeo de varreduras fMRI.
Em novembro de 2022, pesquisadores da Universidade Nacional de Cingapura, da Universidade Chinesa de Hong Kong e da Universidade de Stanford usaram MinD-Vis para mostrar como os modelos de difusão, que alimentam os atuais modelos de IA generativa, como Difusão estável, DALL-Ee meio da jornadapode reconstruir imagens de varreduras fMRI com precisão significativamente maior do que as abordagens disponíveis na época.
A Stable Diffusion pode reconstruir imagens cerebrais sem ajuste fino
Pesquisadores da Graduate School of Frontier Biosciences, Osaka University, e CiNet, NICT, Japão, estão agora usando um modelo de difusão – mais especificamente, Stable Diffusion – para reconstruir experiências visuais a partir de dados fMRI.
Ao fazer isso, a equipe elimina a necessidade de treinar e ajustar modelos complexos de IA. Tudo o que precisa ser treinado são modelos lineares simples que mapeiam os sinais fMRI das regiões cerebrais visuais inferior e superior para componentes individuais de Stable Diffusion.
Especificamente, os pesquisadores mapeiam regiões do cérebro como entradas para codificadores de imagem e texto. As regiões inferiores do cérebro são mapeadas para o codificador de imagem e as regiões superiores do cérebro são mapeadas para o codificador de texto. Isso permite que o sistema use composição de imagem e conteúdo semântico para reconstrução, dizem eles.
Os pesquisadores usam imagens fMRI do Natural Scenes Dataset (NSD) para seu experimento e testam se podem usar a Stable Diffusion para reconstruir o que os sujeitos viram.
Eles mostram que a combinação de decodificação de imagem e texto fornece a reconstrução mais precisa. Existem diferenças de precisão entre os sujeitos – mas elas se correlacionam com a qualidade das imagens fMRI, diz a equipe.
A reconstrução fMRI leva a uma melhor compreensão dos modelos de difusão
Segundo a equipe, a qualidade das reconstruções está a par dos melhores métodos atuais, mas sem a necessidade de treinar os modelos de IA ali utilizados.
Por outro lado, a equipe também usa modelos derivados dos dados de fMRI para investigar blocos de construção individuais da Stable Diffusion, como o conteúdo semântico é gerado no processo de difusão inversa ou quais processos ocorrem na U-Net.
Além disso, a equipe está interpretando quantitativamente as transformações da imagem em diferentes estágios de difusão. Dessa forma, os pesquisadores pretendem contribuir para um melhor entendimento dos modelos de difusão do ponto de vista biológico, que são amplamente utilizados, mas ainda pouco compreendidos.