Google “Muse” gera imagens AI de alta qualidade em velocidade recorde

O novo modelo de conversão de texto em imagem do Google, “Muse”, gera imagens de alta qualidade em velocidade recorde. Também deve representar textos e conceitos em imagens de forma mais confiável.

Pesquisadores do Google Research apresentam o “Muse”, uma IA de imagem generativa baseada em Transformer que produz imagens a par dos modelos atuais, mas é considerada “significativamente mais eficiente” do que os modelos de difusão existentes, como Difusão estável e DALL-E 2 ou modelos autorregressivos como Google Part .

Qualidade semelhante, mas muito mais rápida

O Muse tem um desempenho tão bom quanto o Stable Diffusion 1.4 e os concorrentes internos do Google, Parti-3B e Imagen em termos de qualidade, variedade e alinhamento de texto das imagens geradas.

No entanto, o Muse é significativamente mais rápido. Com um tempo de geração de 1,3 segundos por imagem (512 x 512) a imagem AI claramente supera o sistema de imagem AI mais rápido, Stable Diffusion 1.4, com 3,7 segundos.

A equipe alcançou a vantagem de velocidade usando um espaço latente discreto comprimido e decodificação paralela. Para compreensão de texto, ele usa um congelado Modelo de linguagem T5 que é pré-treinado em tarefas de texto para texto. De acordo com a equipe, o Muse processa totalmente um prompt de texto em vez de se concentrar apenas em palavras particularmente importantes.

Comparado aos modelos de difusão de espaço de Pixel, como Imagen e DALL-E 2, o Muse é significativamente mais eficiente devido ao uso de tokens discretos e exigindo menos iterações de amostragem; em comparação com modelos autorregressivos, como o Parti, o Muse é mais eficiente devido ao uso de decodificação paralela. O uso de um LLM pré-treinado permite a compreensão refinada da linguagem, traduzindo-se na geração de imagens de alta fidelidade e na compreensão de conceitos visuais, como objetos, suas relações espaciais, pose, cardinalidade etc.

do papel

A nova arquitetura permite uma variedade de aplicativos de edição de imagem sem ajuste fino adicional ou inversão do modelo. Dentro de uma imagem, os objetos podem ser substituídos ou modificados apenas por solicitação, sem mascaramento.

1675283611 329 Google Muse gera imagens AI de alta qualidade em velocidade

Em uma avaliação feita por testadores humanos, as imagens do Muse foram classificadas como mais adequadas à entrada de texto do que as do Stable Diffusion 1.4 em cerca de 70% dos casos.

1675283612 183 Google Muse gera imagens AI de alta qualidade em velocidade

Muse também é considerado acima da média em incorporando palavras predefinidas em imagens, como uma camiseta que diz “Carpe Diem”. Além disso, o Muse é considerado preciso na composição, ou seja, exibe elementos de imagem predefinidos no prompt em números, posições e cores mais exatos. Isso geralmente não funciona com os sistemas atuais de IA de imagem.

1675283613 208 Google Muse gera imagens AI de alta qualidade em velocidade

Mais exemplos de imagens estão disponíveis no site do projeto . Os pesquisadores e o próprio Google ainda não comentaram um possível lançamento do modelo de imagem para concorrer com o DALL-E 2 ou Midjourney da OpenAI. Atualmente, apenas o Imagen do Google está disponível em uma versão beta limitada aos EUA.

Como é comum nos trabalhos científicos sobre sistemas de IA para linguagem e imagens atualmente, a equipe do Muse aponta que, dependendo do caso de uso, existe o “potencial de dano”, como reproduzir preconceitos sociais ou espalhar desinformação. Por esse motivo, a equipe se abstém de publicar o código e uma demonstração disponível publicamente. Em particular, a equipe observa o risco de usar modelos de IA de imagem para gerar pessoas, humanos e rostos.