A Stable Diffusion alternativa de código aberto DALL-E 2 já está disponível

Stable Diffusion é uma alternativa de código aberto para OpenAI DALL-E 2 que roda em sua placa gráfica.

Você tem toda uma gama de produtos disponíveis se quiser usar inteligência artificial para gerar imagens via entrada de texto. Além dos precursores, DALL-E 2 da OpenAI e a Craiyon mais fraco especialmente meio da jornada é muito popular.

Recentemente, inicialização StabilityAI anunciou o lançamento do Stable Diffusion um sistema semelhante ao DALL-E 2 inicialmente disponível por meio de um servidor Discord fechado.

O que torna o Stable Diffusion especial é que o poderoso modelo generativo foi desenvolvido em conjunto por pesquisadores da Stability AI, RunwayML, LMU Munich, EleutherAI e LAION. É de código aberto e roda em uma placa gráfica padrão.

A Stable Diffusion está disponível em várias plataformas

Para treinar o modelo Stable Diffusion, Stability AI usou 4.000 GPUs Nvidia A100 e uma variante do conjunto de dados LAION-5B. A Stable Diffusion pode, portanto, gerar imagens de pessoas proeminentes e outros assuntos que OpenAI não permite com DALL-E 2 .

Depois de testar via Discord, Stability AI liberou acesso via interface web Dreamstudio . Aqui, no entanto, há um filtro NSFW (“não é seguro para o trabalho”) e algumas restrições de entrada. Rosto Abraços também oferece uma interface web rudimentar para Stable Diffusion.

Agora, a equipe Stable Diffusion publicou o modelo totalmente treinado no HuggingFace, incluindo o código relacionado no Github. Há menos de uma semana, uma versão mais antiga do modelo já havia vazado no 4chan.

Stable Diffusion é executado em uma placa gráfica local com uma interface gráfica do usuário

Com o modelo de quase quatro gigabytes e repositórios associados, qualquer pessoa com uma placa de vídeo Nvidia com mais de 4 gigabytes de VRAM pode executar Stable Diffusion localmente. No entanto, resoluções de imagem mais altas requerem mais VRAM.

placas de vídeo AMD não são oficialmente suportadas, mas ainda pode ser usado com alguns truques . Apple- Os chips M1 da também devem ser suportados no futuro.

Graças à comunidade de código aberto, existe a opção de executar o Stable Diffusion com algumas linhas de código em uma janela do navegador local com uma interface funcional (instruções para executar o Stable Diffusion localmente ). Se precisar de ajuda com prompts, você pode usar o excelente construtor de prompt .

Quem não tem uma placa gráfica adequada pode continuar a usar o Dreamstudio ou recorrer a um dos inúmeros Google Collabs. Mais informações e instruções podem ser encontradas no Tópico do Reddit sobre a execução do Stable Diffusion .

O novo modelo beta do Midjourney também usa Stable Diffusion como parte de seu pipeline gráfico.

Difusão estável inaugura uma revolução de mídia

Muitas pessoas usarão a Stable Diffusion para criar imagens interessantes. Alguns criarão material questionável com variantes de Stable Diffusion apropriadamente especializadas. Mas o Stable Diffusion é mais do que isso: os aprimoramentos adicionados poucas horas após o lançamento, como a interface do usuário descrita acima, são apenas o começo.

A comunidade de código aberto desenvolverá inúmeras aplicações que surpreenderão e alcançarão novos formatos de mídia. Após a primeira versão do Stable Diffusion, haverá outras que superam as capacidades da versão atual. A Stability AI já está trabalhando em outros modelos de código aberto, por exemplo, para ferramentas de áudio generativas HarmonAI.

Há uma sensação de otimismo na pesquisa de IA de código aberto porque, até agora, sistemas de IA generativos poderosos eram limitados por filtros, acesso e requisitos de hardware. O lançamento do Stable Diffusion marca o início de uma nova era na qual a comunidade de código aberto tem carta branca, como observou o pesquisador alemão de IA Joscha Bach no Twitter.

O pesquisador prevê nada menos que uma revolução na mídia. Quem já seguiu o desenvolvimento de IA generativa nos últimos anos sabe que Bach tem boas razões para sua previsão.