Novo modelo CLIP visa tornar a Stable Diffusion ainda melhor

A organização sem fins lucrativos LAION publica o melhor modelo CLIP de código aberto atual. Isso poderia permitir versões melhores do Stable Diffusion no futuro.

Em janeiro de 2021, a OpenAI publicou uma pesquisa sobre um sistema de IA multimodal que aprende conceitos visuais autossupervisionados a partir da linguagem natural. A empresa treinou CLIP (Contrastive Language-Image Pre-training) com 400 milhões de imagens e legendas associadas.

O CLIP treina um codificador de imagem e um codificador de texto em paralelo para prever os pares corretos de imagem e legenda a partir de um conjunto de exemplos de treinamento.

A OpenAI lançou as versões maiores do CLIP em etapas até abril de 2022, e esforços paralelos para reproduzir o CLIP surgiram na comunidade de código aberto.

O CLIP assume um papel central nos modelos generativos de IA.

Uma vez treinado, o CLIP pode computar representações de imagens e texto, chamadas de embeddings, e então registrar quão semelhantes são. O modelo pode, portanto, ser usado para uma variedade de tarefas, como classificação de imagens ou recuperação de imagens ou textos semelhantes. A OpenAI usou o CLIP para filtrar as imagens geradas pelo DALL-E 1 por qualidade, entre outras coisas.

Nos modelos generativos de IA para imagens criadas após DALL-E 1, o CLIP geralmente assume um papel central, por exemplo, em CLIP+VQGAN, difusão guiada por CLIP ou StyleGAN-NADA. Nesses exemplos, o CLIP calcula a diferença entre um texto de entrada e uma imagem gerada por, digamos, uma GAN. A diferença é minimizada pelo modelo para produzir uma imagem melhor.

Em contraste, em modelos mais novos, como DALL-E 2 ou Difusão estável os codificadores CLIP são integrados diretamente no modelo AI e suas incorporações são processadas pelo modelos de difusão usava. Pesquisadores do Canadá também mostraram recentemente como CLIP pode ajudar a gerar modelos 3D .

LAION lança o poderoso OpenCLIP

Agora, a organização sem fins lucrativos LAION está lançando três grandes modelos OpenCLIP. A LAION (Large-scale Artificial Intelligence Open Network) treinou dois dos modelos com financiamento da Stability AI, a startup por trás da Stable Diffusion.

Um dos modelos também foi treinado no supercomputador JUWELS Booster. A rede de pesquisa publicou anteriormente principalmente conjuntos de dados de código aberto, como LAION-5B, um gigantesco conjunto de dados de imagens com legendas associadas (5,8 bilhões de pares de imagens e textos).

Os modelos OpenCLIP agora lançados (L/14, H/14 eg/14) estão entre os maiores e mais poderosos modelos de código aberto CLIP até hoje. Para o treinamento, a equipe contou com o conjunto de dados LAION-2B, um pouco menor.

O modelo H/14 alcançou uma precisão top 1 de 78,0 por cento no benchmark ImageNet e uma precisão de 73,4 por cento no benchmark de recuperação de imagem zero-shot MS COCO no Recall@5, tornando-o o melhor modelo CLIP de código aberto até o momento. hoje.

O treinamento do LAION também mostra que os modelos CLIP, como outros modelos Transformer, são dimensionados em capacidade com dados e tamanho de treinamento.

Os modelos da LAION podem permitir modelos de IA generativos melhores

Os modelos foram treinados em até 824 GPUs Nvidia A100 com 40 gigabytes de VRAM. Durante o treinamento, a equipe descobriu e resolveu vários problemas interessantes, incluindo a identificação de GPUs defeituosas, o papel benéfico de grandes tamanhos de lote no treinamento e o impacto de diferentes formatos de ponto flutuante na estabilidade do treinamento.

Os novos modelos CLIP da LAION podem agora ser usados ​​para inúmeras aplicações sem nenhum custo. A Stable Diffusion também pode se beneficiar dos novos modelos, disse a equipe. Provar as propriedades de dimensionamento do CLIP também abre caminho para outras melhorias, disseram eles. Por exemplo, LAION planeja integrar e dimensionar um codificador de texto multilíngue no CLIP.

Longe do processamento de imagem, a ideia por trás do CLIP pode ser estendida a outras modalidades, como alinhamento de texto para áudio, escreve a equipe. O projeto já está em andamento e tem o nome APLAUDIR . Os modelos OpenCLIP estão disponíveis via GitHub e em Rosto Abraços .