Stable Diffusion 2.0 é uma versão aprimorada geral

A versão 2.0 do Stable Diffusion traz inúmeros avanços. O novo recurso mais importante é o modelo OpenCLIP de texto para imagem aprimorado.

Em agosto de 2022, a startup de AI Stability AI, juntamente com RunwayML, LMU Munich, EleutherAI e LAION, lançaram Difusão estável uma IA de imagem de código aberto que foi imediatamente bem recebida pela comunidade.

O Stable Diffusion pode ser usado online por uma taxa e com filtros de conteúdo, ou baixado gratuitamente e usado localmente sem restrições de conteúdo. A versão 2.0 continua esta abordagem de código aberto. Liderando o caminho está a IA de estabilidade.

Codificador de texto aprimorado e novos modos de imagem

Para a versão 2.0, a equipe usou o OpenCLIP (Contrastive Language-Image Pre-training), uma versão aprimorada do sistema de IA multimodal que aprende conceitos visuais de linguagem natural autossupervisionada. OpenCLIP foi lançado pela LAION em três versões em meados de setembro e agora está implementado em Stable Diffusion. Stability AI apoiou o treinamento do OpenCLIP. Os modelos CLIP podem calcular representações de imagens e texto como embeddings e comparar sua similaridade. Dessa forma, um sistema de IA pode gerar uma imagem que corresponda a um texto.

Graças a isto novo codificador de texto, Stable Diffusion 2.0 pode gerar imagens significativamente melhores em comparação com a versão 1.0, de acordo com Stability AI. O modelo pode gerar imagens com resoluções de 512×512 e 769×768 Pixels, que são então ampliadas para 2048×2048 Pixels por um modelo de difusão upscaler isso também é novo.

O novo modelo Open CLIP foi treinado com um “conjunto de dados estéticos” compilado pela Stability AI com base no Conjunto de dados LAION-5B . O conteúdo sexual e pornográfico foi previamente filtrado.

Também é novo um modelo de profundidade para imagem que analisa a profundidade de uma imagem de entrada e, em seguida, usa a entrada de texto para transformá-la em novos motivos com os contornos da imagem original.

A versão Stable Diffusion 2.0 também recebe um modelo de pintura interna que pode ser usado para substituir elementos de imagem individuais em uma imagem existente, como pintar um boné ou um fone de ouvido VR na cabeça.

Código aberto como modelo de sucesso

Apesar das inúmeras melhorias, Stable Diffusion versão 2.0 ainda deve rodar localmente em uma única placa gráfica poderosa com memória suficiente.

Já vimos que, quando milhões de pessoas colocam as mãos nesses modelos, elas criam coletivamente algumas coisas realmente incríveis. Este é o poder do código aberto: aproveitar o vasto potencial de milhões de pessoas talentosas que podem não ter os recursos para treinar um modelo de ponta, mas que têm a capacidade de fazer algo incrível com um.

IA de estabilidade

Mais informações e acesso ao novos modelos estão disponíveis no Github . Eles também devem estar disponíveis para o Interface da web de Stable Diffusion Dreamstudio nos próximos dias. Os desenvolvedores podem encontrar mais informações no Documentação da API de estabilidade AI .