MidJourney x Stable Diffusion x Bing Image Creator

A inteligência artificial está mudando o mundo da arte de maneiras notáveis. Uma das aplicações fascinantes da IA ​​no segmento de arte é através da utilização de geradores de arte descritiva. Esses geradores têm a capacidade de examinar e interpretar imagens e gerar as artes completamente novas com base em sua análise.

Neste artigo, discutimos três desses geradores de arte de IA: MidJourney, Stable Diffusion e Microsoft Bing Image Creator, e qual entre os três se destaca na geração dos melhores resultados com base em prompts.

Meio da jornada

MidJourney fundado por David Holz é um gerador de arte de IA que usa aprendizado de máquina para identificar padrões e recursos em obras de arte existentes, que podem ser utilizadas para criar novas peças.

MidJourney entrou no beta aberto em 12 de julho de 2022. Antes de lançar o MidJourney, Holz cofundou a Leap Motion, uma startup que transformou as interfaces do usuário utilizando captura de vídeo e gestos com as mãos. Em 2019, ele vendeu a Leap Motion para Ultraháptica.

Com MidJourney ganhando popularidade, Holz compartilhou suas idéias sobre tecnologia e sua influência na arte e na sociedade. Holz considera os artistas clientes da MidJourney, não concorrentes, e acredita que a plataforma pode facilitar maior criatividade e experimentação na fase de concepção.

No entanto, há preocupações sobre a possível violação de direitos autorais do conjunto de treinamento do MidJourney, que pode incluir trabalhos protegidos por direitos autorais de outros artistas.

Holz enfatiza que o MidJourney foi projetado para aprimorar as capacidades humanas em vez de substituí-las. Ele compara isso aos carros, explicando que só porque os carros são mais rápidos que os humanos, isso não significa que devemos cortar nossas pernas.

Ao usar a geração de imagens AI do MidJourney, os artistas podem explorar novas possibilidades e gerar inúmeras ideias antes de criar seus próprios trabalhos.

Stable Diffusion

Difusão estável é um código aberto modelo de aprendizado de máquina que pode gerar imagens a partir de texto, modificar imagens com base em texto ou preencher detalhes em imagens de baixa resolução ou poucos detalhes. Ele foi treinado em bilhões de imagens e pode produzir resultados comparáveis ​​aos obtidos com DALL-E 2 e MidJourney.

Emad Mostaque fundador e CEO da IA Stability, é a empresa responsável pela Stable Diffusion. A Stable Diffusion é um modelo de difusão latente desenvolvido pelo CompVis group na LMU Munich, e foi projetado por Patrick Esser e Robin Rombach, que anteriormente criaram a arquitetura do modelo de difusão latente usada pelo Stable Diffusion.

Uma colaboração entre Stability AI, CompVis LMU, Runway, EleutherAI e LAION tornou a Stable Diffusion disponível ao público.

A Stable Diffusion pode ser implantada em várias plataformas, incluindo Windows e Appledispositivos. Utilizar a implantação no dispositivo em um aplicativo pode proteger a privacidade do usuário, o que é preferível a uma abordagem baseada em servidor.

Criador de imagens do Microsoft Bing

Microsoft-Bing-Image-Creator

Microsoft lançou uma nova ferramenta chamada Criador de imagens do Bing, que permite aos usuários criar suas próprias imagens diretamente no Microsoft Edge. A empresa lançou um conjunto de ferramentas para criadores projetadas para estimular a criatividade e a autoexpressão. A ferramenta permite que os usuários criem imagens personalizadas para compartilhar suas atualizações de vida ou para qualquer outra finalidade que possam precisar.

Os usuários podem acessar facilmente o Image Creator na barra lateral. A Microsoft tomou medidas proativas para garantir que a ferramenta seja usada com responsabilidade e não facilite a disseminação de conteúdo ofensivo.

A empresa estabeleceu uma política de conteúdo que proíbe o uso do Image Creator para determinados casos, e os usuários podem denunciar qualquer violação dessa política. Além disso, a Microsoft implementou tecnologia para lidar com possíveis vieses que podem surgir na tecnologia de imagem generativa.

Neste artigo, embarcaremos em uma jornada para avaliar os resultados de cada gerador de imagem AI descritivo quando solicitado com prompts de texto idênticos.

Dica 1: Papai Noel moderno em um trenó sendo puxado por renas em um dia quente e ensolarado em uma rodovia

Dica 2: Um close-up de um animal com olhos grandes, capturando sua inocência e fofura

Dica 3: Um astronauta humano brincando de pousar em um novo planeta é recebido por criaturas alienígenas hostis que sacam suas armas

Dica 4: Arte abstrata moderna de uma capa de livro de um romance baseado na cidade de Nova York em cores fortes e brilhantes

Dica 5: Um homem decidindo entre dois pratos – um com pizza e outro com um cheeseburger

Dica 6: Um guerreiro ferido cavalgando em uma montanha de neve com uma espada na mão

Dica 7: Uma imagem abstrata usando diferentes tons que mostra o movimento e o fluxo da água

Dica 8: Salmão em um rio com árvores verdes exuberantes ao fundo

Dica 9: Um copo de água sobre uma mesa com um limão sendo espremido por uma mão

Dica 10: Vista do horizonte em um deserto do ponto de vista de pessoas montando um elefante nele

Dica 11: Uma floresta onde o papel-moeda cresce em árvores e os pássaros são feitos de moedas

Dica 12: Tigela de ramen, cel shading, iluminação noturna, fotorrealista

Dica 13: Elon Musk é pobre e desempregado

Veredito

Ao avaliar os resultados de MidJourney, Stable Diffusion e Bing Image Creator, fica evidente que não há um vencedor definitivo.

Cada gerador interpreta os prompts de maneira distinta, com semelhanças encontradas nas saídas do Bing Image Creator e do MidJourney. A Stable Diffusion é eficiente quando os prompts têm descrições claras, mas muitas vezes interpretam as palavras literalmente demais. Embora o MidJourney e o Bing Image Creator sejam geralmente bem-sucedidos, eles ocasionalmente produzem resultados que não correspondem aos prompts.

Notavelmente, o Bing Image Creator emprega cautela ao gerar quaisquer resultados abusivos ou incitativos, emitindo uma mensagem de aviso quando solicitado a criar uma imagem de um Elon Musk pobre e desempregado. A adoção de tais medidas de proteção pela Microsoft é louvável.

Enquanto isso, a experiência em redes neurais da MidJourney gerou a imagem de um Elon Musk destituído e desamparado. Assim, pode-se concluir que cada gerador atenderá a sua respectiva base de usuários.