O desenvolvedor combina Stable Diffusion, Whisper e GPT-3 para um assistente de design futurista

Como iremos interagir com os computadores daqui a alguns anos? Provavelmente muito diferente do que fazemos hoje. Um desenvolvedor dá um gostinho ao vincular três sistemas de IA para um assistente de design digital.

Para seu assistente de design baseado em IA, o usuário do Twitter Progen vincula três sistemas de IA: a IA de imagem de código aberto Difusão estável para geração de imagens, Sussurro da OpenAI também de código aberto, para traduzir palavras faladas para o inglês, e GPT-3 para diálogos com o assistente.

AI especifica a tarefa por meio de consultas

O resultado: a Progen pode ter conversas simples com a assistente e dar instruções para ideias de imagens. Ela confirma as instruções e as executa diretamente ou faz perguntas para esclarecê-las.

Para o prompt “Vamos projetar uma casa”, o assistente pergunta se é um exterior ou um interior. Ela então pergunta sobre o material de construção a ser usado, a localização da casa e a época do ano. As respostas do Progen são integradas na imagem gerada.

Metahuman Creator com Stable Diffusion, OpenAI Whisper e GPT-3 – o assistente de design digital está funcionando, traduzindo instruções faladas em ideias de imagens em vários idiomas. | Vídeo: Progen através do Twitter

Para a criação do avatar, a Progen utilizou o construtor humano digital “Metahuman Creator” da empresa Unreal Engine Epic Games . A Epic lançou o software para avatares quase fotorrealistas em abril de 2021 e o vê como base para o desenvolvimento de seres virtuais, entre outras coisas.

Progen considera seu projeto uma prova de conceito. É interessante, por um lado, porque vincula três sistemas de IA, dois dos quais são de código aberto. Por outro lado, a demonstração aponta para uma nova maneira pela qual os humanos podem interagir com computadores no futuro, que podem executar tarefas extensas automaticamente e refinar essas tarefas independentemente por meio de consultas e feedback humano.

Esta o alinhamento com as necessidades humanas é um tópico fundamental da pesquisa de IA , mas sua complexidade vai muito além do exemplo mostrado aqui. A demonstração do Progen também é atualmente de uso limitado para o trabalho diário, pois a latência ainda é bastante alta – esse problema provavelmente poderia ser resolvido por meio de otimização e futuros modelos de IA.