Um novo site torna as imagens de treinamento de IA pesquisáveis

Um novo site mostra a todos os interessados ​​mais de cinco bilhões de imagens usadas para treinar sistemas de IA, como DALL-E 2, Midjourney e Stable Diffusion.

O rápido desenvolvimento da corrente sistemas de IA de imagem generativa como DALL-E 2, Midjourney e Stable Diffusion só é possível graças a uma enorme quantidade de dados. Os sistemas requerem milhões de imagens anotadas com rótulos para aprender as propriedades visuais de vários termos. o treinamento levanta questões sobre direitos autorais e privacidade .

Um desses conjuntos de dados que foi usado para treinar Stable Diffusion, DALL-E 2 e Midjourney é chamado LAION-5B e contém mais de cinco bilhões de imagens. O conjunto de dados LAION estava anteriormente disponível publicamente, mas não fornecia uma maneira fácil de pesquisar. Isso muda com haveibeentrained.com que exibe material de treinamento relacionado com base em palavras-chave individuais ou em uma pesquisa reversa de imagens.

Spawning AI está por trás do projeto. “Acreditamos que o melhor caminho a seguir é oferecer aos artistas individuais ferramentas para gerenciar seus estilos e semelhanças e determinar seu próprio nível de conforto com um cenário tecnológico em constante mudança.” seus estados do site .

“Não estamos focados em perseguir indivíduos para experimentar o trabalho de outros. Nossa preocupação é menos com a diversão dos artistas, e mais com o uso em escala industrial dos dados de treinamento do artista.”

Mulher descobre foto de seus registros médicos em material de treinamento de IA

O site provou sua utilidade logo após seu lançamento. Uma mulher descobriu uma imagem médica dela mesma no banco de dados que não deveria ter ido parar lá. De acordo com o usuário do Twitter Lapine , essa foto foi tirada em 2013 como parte da documentação clínica. Ela havia assinado uma declaração afirmando que a foto era destinada apenas para seu arquivo e não para o público.

Lapine aparentemente não é um caso isolado, pois Ars Technica descobriu em uma pesquisa. “Durante nossa busca pelas fotos de Lapine, também descobrimos milhares de fotos de registros médicos de pacientes semelhantes no conjunto de dados, cada uma das quais pode ter um status ético ou legal questionável semelhante, muitas das quais provavelmente foram integradas em modelos populares de síntese de imagem que as empresas como Midjourney e Stability AI oferecem como um serviço comercial.”

As pessoas não podem criar de repente uma versão AI do rosto de Lupin agora, em parte porque o nome dela não estava associado à foto. Mas isso a incomoda imagens médicas privadas agora fazem parte de um produto disse Lapine.

Os direitos de treinamento em IA podem ser concedidos explicitamente com antecedência no futuro

O conjunto de dados LAION contém links para imagens na Internet e não a própria imagem. De acordo com Política de privacidade da LAION , fornecer nome e rosto é um pré-requisito para excluir um link de imagem. Como alternativa, você pode tentar excluir a imagem diretamente na fonte.

Um processo desnecessariamente complicado, encontra a equipe de haveibeentrained.com, que deseja criar um padrão para este assunto com o Source+. Eles propõem que, no futuro, artistas e outros possam apertar um botão antes de fazer o upload, se seu trabalho pode ou não ser usado para treinamento de IA. No entanto, se as imagens forem publicadas ilegalmente na Internet, como as imagens médicas de Lapine, nem mesmo essa mudança ajudará.