Sumário
O futuro dos modelos de IA é multimodal, disso não há dúvidas. No entanto, isso não requer necessariamente o treinamento de novos modelos grandes. Em vez disso, as soluções existentes podem ser vinculadas.
A Microsoft adicionou um recurso importante ao chatbot OpenAI ChatGPT , lançado em novembro de 2022: processamento de imagem. Até agora, o modelo de linguagem só podia lidar com texto, mas o Visual ChatGPT pode enviar e receber imagens, bem como texto.
Segundo os pesquisadores, um modelo de conversação multimodal poderia ser treinado para esse fim, mas isso exigiria uma grande quantidade de dados e recursos computacionais. Além disso, essa abordagem é pouco flexível e o modelo não pode ser estendido para outras modalidades, como áudio ou vídeo, sem novos treinamentos.
Vinculando o ChatGPT a 22 modelos de imagem
Em vez de treinar um novo modelo, os pesquisadores vincularam o ChatGPT a 22 Visual Foundation Models (VFM) diferentes, incluindo Difusão estável . Esses modelos executam diferentes tarefas, como responder a perguntas sobre imagens, gerar e processar imagens ou extrair informações como dados de profundidade.
A equipe preenche a lacuna entre ChatGPT e VFM com um Prompt Manager que executa as seguintes tarefas:
- Informe explicitamente ao ChatGPT os recursos de cada VFM e especifique os formatos de entrada e saída.
- Converte diferentes informações visuais, como PNGs ou imagens com informações detalhadas em um formato de linguagem que o ChatGPT possa entender.
- Manipula as histórias, prioridades e conflitos dos diferentes VFMs.
O Visual ChatGPT pode gerar imagens, nomeá-las corretamente, salvá-las e mantê-las prontas para entrada posterior ou processar imagens de usuários como entrada.
Se o modelo de conversa não estiver claro qual VFM é mais adequado para resolver a tarefa, o Visual ChatGPT perguntará. Ele também pode conectar vários VFMs dessa maneira.
Embora os exemplos mostrados pela Microsoft com o Visual ChatGPT sejam promissores, ainda existem algumas limitações. O Visual ChatGPT é, obviamente, completamente dependente do ChatGPT e dos modelos de imagem vinculados.
O número máximo de tokens que o ChatGPT pode processar também é um fator limitante. Além disso, uma quantidade significativa de engenharia imediata é necessária para converter VFMs em linguagem.
Desenvolvimentos anteriores estabeleceram bases importantes
A Microsoft está integrando ao Visual ChatGPT alguns métodos existentes para maior controle sobre os modelos de imagem com modelos adicionais ou engenharia de prompt. Houve vários avanços nessa área nos últimos meses, como InstructPix2Pix , ControlNet ou GLIGEN .
Os pesquisadores publicaram seu código-fonte em GitHub . Uma demonstração também está disponível em rosto abraçado mas requer uma chave de API separada do OpenAI.