Sumário
Um novo método acelera os modelos de difusão em até 256 vezes. Isso pode ser um passo para a geração de imagens de IA em tempo real.
Os modelos de difusão ultrapassaram os sistemas alternativos de geração de imagens, como os GANs. Eles geram imagens de alta qualidade e alta resolução, podem modificar imagens existentes e até mesmo gerar formas 3D . No entanto, isso requer dezenas a centenas de etapas de redução de ruído, o que é intensivo em computação e, portanto, demorado.
No entanto, a velocidade entre a entrada imediata e a saída de uma imagem já é impressionante para modelos de IA generativa, como DALL-E 2, meio da jornada ou Difusão estável : dependendo do poder de computação e modelo AI, leva apenas alguns segundos.
Para reduzir ainda mais o esforço computacional – e possivelmente permitir a geração de imagens em tempo real em um futuro próximo – os pesquisadores estão investigando como reduzir as etapas de remoção de ruído.
A difusão destilada acelera drasticamente a geração de imagens de IA
Pesquisadores da Universidade de Stanford, Stability AI e Google Brain agora estão mostrando progresso ao reduzir as etapas de redução de ruído dos modelos em pelo menos 20 vezes.
Com base no trabalho anterior dos autores contribuintes, a equipe usa técnicas progressivas destilação em rede . Nesse processo, um modelo de IA aprende a reproduzir a saída do modelo grande original. Em seguida, é gradualmente reduzido a um modelo de difusão que requer significativamente menos etapas para reduzir o ruído de uma imagem.
No destilação em rede, um grande modelo de IA atua como professor e um pequeno como aluno. Durante o treinamento, a IA grande repassa seu conhecimento: no caso de uma IA de linguagem, por exemplo, as 20 palavras mais prováveis que completam uma frase incompleta. O pequeno modelo de IA aprende assim a reproduzir os resultados do grande modelo de IA – sem adotar seu tamanho.
De acordo com o artigo, o modelo Distilled Diffusion acelera a inferência por “pelo menos dez vezes” em comparação com os métodos existentes nos conjuntos de dados ImageNet 256 × 256 e LAION. Para imagens menores, a aceleração chega a ser um fator de 256.
A difusão destilada é extremamente rápida – mesmo em Applehardware
Em relação aos modelos de difusão padrão, a Distilled Diffusion pode produzir imagens em um nível igualmente alto com apenas quatro etapas de amostragem. Comparado aos modelos de difusão, como o Stable Diffusion, que requer dezenas a centenas de passos para produzir uma boa imagem, o Distilled Diffusion pode até mesmo produzir “imagens altamente realistas” em apenas um a quatro passos de redução de ruído. As manipulações de imagem, como o processamento de imagem assistido por IA, também funcionam em apenas duas a quatro etapas.
O fundador da Stability AI, Emad Mostaque, está otimista de que essa pesquisa em breve será aplicada na prática. Combinado com suporte nativo para os motores neurais em Apple chips de silício da, Stable Diffusion pode encurtar o processo de geração de imagem de oito segundos para menos de um.