Um novo conjunto de dados da Laion mostra como a IA pode ajudar no treinamento de IA e melhorar o desempenho de futuros sistemas generativos de IA.
Sistemas populares de IA de imagem, como DALL-E 2 , Difusão estável e meio da jornada pode gerar imagens baseadas em texto. Eles ganham essa capacidade treinando com pares de texto-imagem da web.
No entanto, muitas imagens da web são mal, incompletas ou não são rotuladas. Se essas imagens fossem mais detalhadas e rotuladas corretamente, os futuros sistemas de IA de imagem poderiam entender melhor os tópicos e gerar imagens que correspondam mais ao texto.
IA ajuda na descrição da imagem
É aqui que entra o novo conjunto de dados LAION-COCO da organização de pesquisa Laion. A Laion é especializada na compilação de grandes conjuntos de dados para treinamento de IA.
Bem conhecido, por exemplo, é o conjunto de dados Laion5B, que é usado, entre outras coisas, para treinar a Stable Diffusion. O conjunto de dados às vezes é criticado porque os mais de cinco bilhões de imagens vinculadas incluir imagens que não são destinadas ao treinamento de IA .
Para LAION-COCO, Laion gerou rótulos de imagem adicionais para 600 milhões de imagens vinculadas em Laion5B. Laion usou uma combinação de versões BLIP L/14 e 2 CLIP (L/14 e RN50x64) para geração de texto. BLIP L/14 gerou 40 legendas, CLIP Open AI L/14 selecionou as 5 melhores, dentre as quais o modelo RN50x64 determinou então a melhor legenda.
O conjunto de dados destina-se a ajudar a pesquisar se as legendas geradas sinteticamente podem complementar as legendas escritas por humanos, escreve Laion. Os modelos treinados com o conjunto de dados podem mostrar o valor das legendas geradas.
Rótulos de máquinas e humanos são indistinguíveis
Em uma avaliação inicial, Laion fez testadores humanos avaliarem 200 imagens, 100 legendadas por humanos e 100 geradas por máquina.
Em 47,5% de todos os casos, os testadores concordaram que as legendas que foram realmente escritas por máquinas foram escritas por humanos. “Isso nos deixa confiantes de que nossos capitães são, em média, muito bons”, escreve Laion.
Nas discussões pós-avaliação, os testadores afirmaram que, além dos erros óbvios, foi muito difícil distinguir as legendas humanas das de máquina. Laion atribui esses erros óbvios (veja as imagens abaixo) à falta de conceitos sobre o que está acontecendo na imagem e “porque seu conhecimento não está fundamentado em um modelo de mundo suficientemente sofisticado”.
o livre o download de LAION-COCO está disponível em Huggingface . O conjunto de dados consiste em arquivos parquet. As colunas contêm a legenda original, o URL da imagem, a legenda superior e uma lista de legendas alternativas com pontuações CLIP mais baixas.