IA clínica: método generalizado tem desempenho ruim em benchmark

Os mapas de saliência devem lançar luz sobre a caixa preta da IA ​​na medicina. Em um benchmark, os pesquisadores agora mostram que o método amplamente usado é menos confiável do que se supõe.

A explicabilidade desempenha um papel crucial em muitas aplicações de inteligência artificial, especialmente onde as previsões de redes neurais profundas têm um impacto direto na vida das pessoas. Existem vários métodos para tornar a IA da caixa preta mais compreensível. Em diagnósticos médicos, onde grande parte dos dados são dados de imagem, há um uso crescente dos chamados mapas de saliência (na forma de mapas de calor), que visualizam zonas ou pontos em imagens de raios-X, por exemplo, que influenciaram a interpretação de um sistema de IA.

Mapas de saliência não estão prontos para o horário nobre, de acordo com estudo

Métodos de saliência como Grad-CAM são combinados com um modelo de IA que é usado para o próprio diagnóstico. As visualizações devem permitir que os médicos, mas também os pacientes, entendam ou verifiquem as previsões. Os métodos também visam aumentar a aceitação de sistemas de IA na medicina.

Em um novo estudo, os pesquisadores agora mostram que todos os métodos de saliência amplamente usados ​​ficam atrás do desempenho de especialistas humanos, independentemente do modelo de diagnóstico usado. A equipe, portanto, conclui que esses métodos ainda não estão prontos para uso generalizado na prática clínica.

Benchmark “CheXlocalize” mostra as limitações do método amplamente utilizado

Na análise liderada por Pranav Rajpurkar, da Harvard Medical School, Matthew Lungren, de Stanford, e Adriel Saporta, da New York University, os autores revisaram sete métodos de saliência amplamente utilizados por sua confiabilidade e precisão na identificação de dez doenças diagnosticadas em imagens de raios-X. Eles também compararam o desempenho dos métodos com o de especialistas humanos.

Em sua análise, todos os métodos de saliência tiveram um desempenho consistentemente pior do que os radiologistas humanos na avaliação de imagens e na detecção de lesões patológicas. Onde tais métodos já estão em uso, os autores recomendam cautela.

“Nossa análise mostra que os mapas de saliência ainda não são confiáveis ​​o suficiente para validar decisões clínicas individuais feitas por um modelo de IA”, disse Rajpurkar, professor assistente de informática biomédica no HMS. “Identificamos limitações importantes que levantam sérias preocupações de segurança para uso na prática atual.”

A equipe suspeita de artefatos algorítmicos nos métodos de saliência, cujos mapas de calor relativamente pequenos (14 x 14 Pixels) são interpolados para as dimensões originais da imagem (normalmente 2.000 x 2.000 Pixels), como uma possível causa dos resultados ruins.

O código, os dados e a análise da equipe estão disponíveis em GitHub .