Sumário
Stable Diffusion é uma alternativa de código aberto para OpenAI DALL-E 2 que roda em sua placa gráfica.
Você tem toda uma gama de produtos disponíveis se quiser usar inteligência artificial para gerar imagens via entrada de texto. Além dos precursores, DALL-E 2 da OpenAI e a Craiyon mais fraco especialmente meio da jornada é muito popular.
Recentemente, inicialização StabilityAI anunciou o lançamento do Stable Diffusion um sistema semelhante ao DALL-E 2 inicialmente disponível por meio de um servidor Discord fechado.
O que torna o Stable Diffusion especial é que o poderoso modelo generativo foi desenvolvido em conjunto por pesquisadores da Stability AI, RunwayML, LMU Munich, EleutherAI e LAION. É de código aberto e roda em uma placa gráfica padrão.
A Stable Diffusion está disponível em várias plataformas
Para treinar o modelo Stable Diffusion, Stability AI usou 4.000 GPUs Nvidia A100 e uma variante do conjunto de dados LAION-5B. A Stable Diffusion pode, portanto, gerar imagens de pessoas proeminentes e outros assuntos que OpenAI não permite com DALL-E 2 .
Depois de testar via Discord, Stability AI liberou acesso via interface web Dreamstudio . Aqui, no entanto, há um filtro NSFW (“não é seguro para o trabalho”) e algumas restrições de entrada. Rosto Abraços também oferece uma interface web rudimentar para Stable Diffusion.
Prazer em anunciar o lançamento público de código aberto de #StableDiffusion
!
Por favor, veja nosso post de lançamento e retuíte! https://t.co/dEsBX7cRHwOrgulho de todos os envolvidos no lançamento desta tecnologia que é a primeira de uma série de modelos para ativar o potencial criativo da humanidade
– Emad (@EMostaque) 22 de agosto de 2022
Agora, a equipe Stable Diffusion publicou o modelo totalmente treinado no HuggingFace, incluindo o código relacionado no Github. Há menos de uma semana, uma versão mais antiga do modelo já havia vazado no 4chan.
Stable Diffusion é executado em uma placa gráfica local com uma interface gráfica do usuário
Com o modelo de quase quatro gigabytes e repositórios associados, qualquer pessoa com uma placa de vídeo Nvidia com mais de 4 gigabytes de VRAM pode executar Stable Diffusion localmente. No entanto, resoluções de imagem mais altas requerem mais VRAM.
placas de vídeo AMD não são oficialmente suportadas, mas ainda pode ser usado com alguns truques . Apple- Os chips M1 da também devem ser suportados no futuro.
Graças à comunidade de código aberto, existe a opção de executar o Stable Diffusion com algumas linhas de código em uma janela do navegador local com uma interface funcional (instruções para executar o Stable Diffusion localmente ). Se precisar de ajuda com prompts, você pode usar o excelente construtor de prompt .
Quem não tem uma placa gráfica adequada pode continuar a usar o Dreamstudio ou recorrer a um dos inúmeros Google Collabs. Mais informações e instruções podem ser encontradas no Tópico do Reddit sobre a execução do Stable Diffusion .
O novo modelo beta do Midjourney também usa Stable Diffusion como parte de seu pipeline gráfico.
Midjourney acaba de lançar uma versão beta de seu sistema, que combina Midjourney e Stable Diffusion. Aqui estão alguns exemplos. Feito apenas escrevendo prompts de texto para seu bot de discórdia. Para testar você mesmo, basta escrever –beta após o prompt do Midjourney. #midjourney #arte conceitual pic.twitter.com/Wj5PJ4npgR
— Martin Nebelong (@MartinNebelong) 23 de agosto de 2022
Difusão estável inaugura uma revolução de mídia
Muitas pessoas usarão a Stable Diffusion para criar imagens interessantes. Alguns criarão material questionável com variantes de Stable Diffusion apropriadamente especializadas. Mas o Stable Diffusion é mais do que isso: os aprimoramentos adicionados poucas horas após o lançamento, como a interface do usuário descrita acima, são apenas o começo.
A comunidade de código aberto desenvolverá inúmeras aplicações que surpreenderão e alcançarão novos formatos de mídia. Após a primeira versão do Stable Diffusion, haverá outras que superam as capacidades da versão atual. A Stability AI já está trabalhando em outros modelos de código aberto, por exemplo, para ferramentas de áudio generativas HarmonAI.
Há uma sensação de otimismo na pesquisa de IA de código aberto porque, até agora, sistemas de IA generativos poderosos eram limitados por filtros, acesso e requisitos de hardware. O lançamento do Stable Diffusion marca o início de uma nova era na qual a comunidade de código aberto tem carta branca, como observou o pesquisador alemão de IA Joscha Bach no Twitter.
O lançamento público do modelo Stable Diffusion não é apenas a sentença de morte da indústria de fotografia. A menos que haja mudanças legais significativas, um ecossistema de aplicativos que permite a todos gerar e modificar áudio, 3D, animações e vídeos desencadeará uma revolução na mídia.
– Joscha Bach (@Plinz) 22 de agosto de 2022
O pesquisador prevê nada menos que uma revolução na mídia. Quem já seguiu o desenvolvimento de IA generativa nos últimos anos sabe que Bach tem boas razões para sua previsão.