Artistas removem 80 milhões de imagens dos dados de treinamento Stable Diffusion 3

Os artistas removeram 80 milhões de imagens dos dados de treinamento para Stable Diffusion 3. Mas o problema de direitos autorais de grandes modelos de imagem de IA está longe de ser resolvido.

Há um outro lado do sucesso dos modelos de imagem de IA: desde o início, empresas como a Stability AI foram criticadas por usar o trabalho de artistas para treinar Difusão estável sem o consentimento deles. As partes envolvidas agora lutando nos tribunais também.

A startup de IA Spawning assumiu a responsabilidade de trazer um pouco mais de transparência aos dados usados ​​para treinar IA. Como primeiro passo, lançou um mecanismo de busca chamado haveibeentrained.com. Ele permite que as pessoas pesquisem os dados de treinamento para modelos de imagem. Isso levou a os usuários podem descobrir dados confidenciais sobre si mesmos no conjunto de dados.

A plataforma também permite que os artistas removam suas imagens dos conjuntos de dados usados ​​para treinar modelos de IA. Em dezembro de 2022, Spawning anunciou que a Stability AI consideraria esse chamado desativação do artista ao treinar Stable Diffusion 3. O prazo para o opt-out terminou em 3 de março.

Agora, Spawning anuncia que os artistas optaram por não lançar 80 milhões de obras de arte para treinar modelos de IA. Spawning considera isso um sucesso.

“Isso estabelece um precedente significativo para concretizar nossa visão de IA consentida, e estamos apenas começando!” a organização anunciou no Twitter.

No entanto, isso é apenas uma gota no balde, ou cerca de três por cento, em comparação com os mais de dois bilhões de imagens no conjunto de dados LAION usado pela Stable Diffusion.

Desativações via ArtStation e Shutterstock

Para fazer o opt-out funcionar, Spawning contou com parcerias com plataformas como ArtStation e Shutterstock. Essas plataformas também permitiam que os artistas desistissem do treinamento de IA, ou as imagens eram excluídas por padrão. Mais de 40.000 solicitações de exclusão foram enviadas diretamente por haveibeentrained.com.

Cada reivindicação de direitos autorais foi revisada manualmente pela Spawning, disse a organização. Ferramentas para remover várias imagens de artistas individuais de uma só vez estão em andamento, mas não estavam prontas para o Stable Diffusion 3. A plataforma também permite que os artistas compartilhem explicitamente seu trabalho para treinamento de IA, caso ainda não esteja no conjunto de dados.

Nós fornecemos esses serviços gratuitamente.

Acreditamos que os dados de consentimento serão de grande benefício para as organizações de IA e para as pessoas nas quais esses sistemas são treinados.

Recentemente, lançamos o opt-in de artistas humanos verificados e temos mais ferramentas e parcerias em andamento.

Desova

Os artistas não são universalmente a favor do processo de exclusão. Alguns acham que um processo geral de aceitação é melhor. Isso significa que as imagens devem ser disponibilizadas proativamente para treinamento de IA. Registrar-se em um site e fornecer mais dados apenas para remover o trabalho de um conjunto de dados para o qual nunca foi destinado não parece ser a melhor maneira de lidar com o consentimento da IA.

Grande gesto, pequeno efeito

No geral, a opção de exclusão é um sinal respeitoso da Stability AI e um alicerce para o desenvolvimento futuro de modelos de IA. Os estilos de alguns artistas podem não ser mais reproduzíveis nativamente com Stable Diffusion 3.

Mas se os modelos de IA vão parar de usar material protegido por direitos autorais para geração de imagens no futuro, mesmo com procedimentos de aceitação, é questionável. Afinal, o novo Método ControlNet torna cada vez mais fácil para os usuários ajustar a Stable Diffusion com suas próprias imagens. A responsabilidade pelas violações de direitos autorais provavelmente passará das empresas para os indivíduos.

O fato de o plágio de certos estilos ser mais fácil de detectar pode explicar por que o debate sobre permissões de treinamento de IA é mais acalorado para geradores de imagens do que para modelos de linguagem. Mas os editores e autores também querem manter seu trabalho longe dos modelos de linguagem.