O OpenAI visa tornar o DALL-E mais seguro, mas apresenta efeitos colaterais inesperados

O DALL-E 2 da OpenAI conta com todo um conjunto de medidas de segurança para evitar possíveis usos indevidos. Agora, o OpenAI oferece uma visão profunda do processo de treinamento.

Em abril, a OpenAI compartilhou pela primeira vez insights sobre DALL-E 2 , o novo modelo de IA de geração de imagens da empresa. Desde então, um teste beta fechado está em andamento com resultados impressionantes. Eles levantam questões sobre O papel do DALL-E 2 no futuro do trabalho criativo ou fazer os fotógrafos temerem a morte da fotografia .

Um objetivo central da fase beta fechada é preparar o DALL-E 2 para uso como um produto disponível gratuitamente. Para esse fim, a OpenAI deseja garantir que o DALL-E 2 não gere nenhuma imagem violenta e sexual em particular. Até aqui, DALL-E 2 praticamente seguiu as regras .

A empresa tomou uma série de medidas para conseguir isso, como filtros de entrada e upload para a tela de entrada do sistema, limites no número de imagens que podem ser geradas a qualquer momento, uma política de conteúdo abrangente e controle ativo do conteúdo gerado , incluindo revisões humanas de conteúdo questionável.

OpenAI filtra dados de treinamento automaticamente

Além dessas medidas, a OpenAI se concentra em mitigação de conteúdo potencialmente perigoso no conjunto de dados de treinamento. Para o treinamento do DALL-E 2, a OpenAI coletou centenas de milhões de imagens e suas legendas da Internet. No processo, várias imagens com conteúdo indesejado foram encontradas no conjunto de dados coletados automaticamente.

Para identificar e remover esse conteúdo, o OpenAI usa um processo semiautomático: usando algumas centenas de imagens que foram classificadas manualmente como problemáticas, uma rede neural é treinada para classificar as imagens.

Outro algoritmo usa esse classificador para encontrar algumas imagens no conjunto de dados principal que podem melhorar o desempenho do classificador. Essas imagens são então processadas por humanos e, se adequado, usadas para treinar ainda mais o classificador. Este processo é realizado por vários classificadores especializados.

O classificador treinado pode filtrar automaticamente as imagens problemáticas das centenas de milhões de imagens. No processo, filtrar dados problemáticos tem precedência sobre a preservação de dados não problemáticos, OpenAI escreve. É significativamente mais fácil refinar um modelo posteriormente com mais dados do que fazer o modelo esquecer algo que já aprendeu, de acordo com a empresa.

O processo de filtragem, tão cauteloso, eliminou cerca de cinco por cento do conjunto total de dados de treinamento, incluindo muitas imagens que não mostram conteúdo problemático, disse a empresa. Classificadores melhores no futuro podem recuperar alguns desses dados perdidos e melhorar ainda mais o desempenho do DALL-E 2.

Para testar a eficiência de sua abordagem, a OpenAI treinou dois modelos GLIDE, um filtrado e outro não filtrado. O GLIDE é um antecessor direto do DALL-E 2 e, como esperado, o modelo filtrado gerou significativamente menos conteúdo gráfico e explícito.

O filtro de dados aumenta o viés no modelo de IA

No entanto, o processo de filtragem bem-sucedido tem um efeito colateral inesperado : cria ou aumenta o viés do modelo em relação a determinados grupos demográficos. Esse viés é um grande desafio, mas o processo de filtragem, que na verdade é positivo, agrava o problema, disse OpenAI.

A empresa cita o insira “um CEO” como exemplo: O modelo não filtrado tende a produzir mais imagens de homens do que de mulheres – muito desse viés se deve aos dados de treinamento.

No entanto, esse efeito foi exacerbado no modelo filtrado. Mostrava imagens de homens quase exclusivamente. Em comparação com o modelo não filtrado, a frequência da palavra “mulher” no conjunto de dados foi reduzida em 14%, enquanto a da palavra “homem” foi de apenas 6%.

Provavelmente, há duas razões para isso: embora homens e mulheres sejam aproximadamente igualmente representados no conjunto de dados original, as mulheres podem aparecer com mais frequência em contextos sexualizados. Portanto, os classificadores removem mais imagens de mulheres, reforçando o desequilíbrio.

Além disso, os próprios classificadores podem ser influenciados por certas definições ou implementações de classe e remover mais imagens de mulheres.

OpenAI corrige viés com reponderação de dados de treinamento

No entanto, a equipe da OpenAI conseguiu reduzir significativamente esse efeito reponderando os dados de treinamento restantes para o modelo, tornando as imagens menos comuns de mulheres mais influentes no treinamento do modelo. Para as palavras testadas, como “mulher” e “homem”, os valores de frequência caíram para cerca de um e menos um por cento, em vez de 14 e seis por cento.

Em uma postagem no blog, a OpenAI também mostra que modelos como GLIDE e DALL-E 2 às vezes aprendem por memorização, reproduzindo imagens de treinamento em vez de criar novas. A empresa identificou a causa como imagens frequentemente repetidas no conjunto de dados de treinamento. O problema pode ser removido removendo imagens visualmente semelhantes.

Em seguida, a OpenAI quer melhorar ainda mais os filtros para treinamento, combater ainda mais o viés no DALL-E 2 e entender melhor o efeito observado da memorização.