Imagens de pacientes em conjuntos de dados LAION são apenas uma amostra de um problema maior

Um conjunto de dados da organização sem fins lucrativos LAION destinado ao treinamento de IA contém inúmeras imagens médicas – mesmo que a pessoa na imagem não tenha dado permissão.

No site “Eu fui treinado”, os interessados ​​podem pesquisar o conjunto de dados LAION 5B, um gigantesco conjunto de dados de imagens com legendas associadas (5,8 bilhões de pares imagem-texto). Os conjuntos de dados do LAION são usados ​​para treinar grandes modelos de imagem de IA, como Stable Diffusion, Google Imagen e Google partido .

Os conjuntos de dados LAION contêm links para imagens, não as próprias imagens. Usando os links classificados, os usuários podem baixar as imagens necessárias para treinar seu sistema de IA.

LAION se baseia no trabalho de Rastreamento Comum , uma organização sem fins lucrativos que rastreia bilhões de páginas da Web e documenta os resultados em conjuntos de dados. LAION extrai as tags de imagem HTML desses dados, que também possuem texto alternativo, avalia os dados com CLIP de acordo com vários parâmetros e os classifica, por exemplo, por similaridade.

Simplificando, os conjuntos de dados LAION contêm links classificados para um grande número de imagens da Internet. A LAION não considera o conteúdo, direitos autorais ou privacidade das imagens ao coletar, avaliar e classificar os links das imagens.

O que aconteceu agora no Twitter não é, portanto, nenhuma surpresa.

A imagem do paciente aparece no conjunto de dados LAION sem consentimento

A artista de IA Lapine procurou no LAION-5B imagens de si mesma. No processo, ela descobriu duas fotos pessoais de antes e depois de seu rosto tiradas em 2013 como parte de um exame médico. No Twitter, ela postou a imagem de um documento mostrando que havia autorizado o uso da imagem apenas para seu registro pessoal.

O médico morreu em 2018, e o artista assume que as imagens foram roubadas após sua morte e publicadas na internet. Lá, eles foram encontrados pelo Common Crawl e, portanto, acabaram no conjunto de dados LAION-5B, que por sua vez é usado para treinar sistemas de IA.

Lapine poderia solicitar que LAION excluísse o link para a imagem do conjunto de dados, mas provavelmente teria poucas chances de sucesso: LAION escreve em sua página GDPR que tais solicitações são processadas apenas se uma imagem estiver vinculada a dados identificáveis, como nome, número de telefone ou endereço. Não é o caso das imagens de Lapine.

A remoção de imagens individuais de modelos de IA já treinados também seria complicada ou impossível porque elas são representadas apenas de forma abstrata.

O treinamento de IA é o novo Velho Oeste da proteção de privacidade

As imagens de Lapine, claro, não são um caso isolado. Numerosas imagens de pacientes existem no conjunto de dados LAION. Eles podem ser encontrados, por exemplo, pesquisando os nomes de doenças específicas. Imagens médicas, como raios-X, também estão incluídas no conjunto de dados.

Este não é um problema fundamental. Pelo contrário, imagens médicas em conjuntos de dados podem ser de grande utilidade, por exemplo, no treinamento de sistemas médicos de IA, um tema em que a LAION também está trabalhando . No caso de Lapine, as imagens nunca deveriam ter sido postadas online – e então não teriam acabado no conjunto de dados LAION.

O problema é que não há regras sobre quais imagens podem ser incluídas em conjuntos de dados e usadas para treinamento de IA. No caso de Lapine, são imagens médicas privadas. No caso dos artistas , esses são trabalhos protegidos por direitos autorais que os sistemas de IA podem imitar, pelo menos estilisticamente. Mesmo no caso de imagens publicadas sob um Licença Creative Commons não está claro se essa permissão também se aplica ao treinamento de inteligência artificial.

Isso me lembra os primeiros dias da mídia social: quando se trata de direitos autorais e proteção de dados, estamos de volta ao Velho Oeste. O progresso tecnológico resultante do trabalho rigoroso de algumas organizações e empresas é notável e cria novas oportunidades . Faz pouco para ajudar aqueles que se sentem privados por ela.