Sumário
STEVE-1 é um modelo de IA generativo que pode executar tarefas no Minecraft usando instruções de texto.
Modelos de IA que podem responder a instruções de linguagem natural tornaram-se incrivelmente populares, mas criar modelos que possam seguir instruções para tarefas sequenciais complexas continua sendo um desafio. Os pesquisadores apresentaram agora o STEVE-1, um assistente de IA que pode seguir uma ampla variedade de texto de horizonte curto e instruções visuais no Minecraft.
STEVE-1 baseia-se em dois modelos AI existentes – VPT, um modelo básico pré-treinado em 70.000 horas de jogo do Minecraft e MineCLIP, que alinha legendas de texto com vídeos do Minecraft. Usando uma abordagem inspirada em DALL-E 2 UnCLIP, os pesquisadores ajustaram o VPT para seguir os objetivos visuais codificados pelo MineCLIP e, em seguida, treinaram um módulo para traduzir prompts de texto em incorporações visuais do MineCLIP.
Este modelo de duas etapas permite que o STEVE-1 siga as instruções de texto e visuais no Minecraft com apenas $ 60 de computação e 2.000 exemplos rotulados.
STEVE-1 supera agentes de IA anteriores no Minecraft
Em seus testes, o STEVE-1 superou significativamente os agentes de IA anteriores no Minecraft quando recebeu instruções relevantes, reunindo muito mais recursos e explorando mais longe, e pode executar uma variedade de tarefas de curto prazo, como cortar árvores, coletar recursos e explorar quando solicitado com texto ou imagens.
Os pesquisadores descobriram que o encadeamento leva a um desempenho aprimorado em tarefas de longo prazo, como criar itens ou construir estruturas, de quase zero para uma taxa de sucesso de 50 a 70%. A equipe também mostra STEVE-1 respondendo a instruções humanas em tempo real, demonstrando seu potencial como assistente interativo.
STEVE-1 é um projeto para “agentes instruíveis em domínios além do Minecraft”
Embora, semelhante à geração de imagens, mudar para um prompt mais longo e específico melhore drasticamente o desempenho do STEVE-1 em tarefas de horizonte longo, é igualmente pouco intuitivo e demorado, e mais trabalho precisa ser feito, afirma o artigo.
Como o STEVE-1 funciona diretamente a partir de entrada de pixel bruto e ações de mouse e teclado de baixo nível, a abordagem pode ser aplicada de forma mais ampla para criar agentes instrutíveis em domínios além do Minecraft, disse a equipe. O trabalho futuro se concentrará em melhorar a capacidade do STEVE-1 de lidar com instruções mais longas e complexas, incorporando grandes modelos de linguagem para ajudar o agente a planejar e executar tarefas de várias etapas.
Mais informações e o código estão disponíveis no página do projeto STEVE-1.