A mais recente IA da OpenAI constrói um machado de diamante no Minecraft

Sumário

OpenAI coleta 70.000 horas de jogo como material de treinamento
O modelo da OpenAI mostra recursos interessantes de disparo zero
OpenAI abre o caminho para a picareta de diamante
OpenAI quer treinar com ainda mais dados – e planeja novos experimentos
OpenAI usa Minecraft para pesquisa em modelos de fundação

A OpenAI usa o Minecraft como exemplo para mostrar como a inteligência artificial pode aprender habilidades complexas com treinamento em vídeo e aprendizado por reforço.

Em 2019, os pesquisadores de IA introduziram pela primeira vez o MineRL Challenge, que visa ensinar a inteligência artificial a jogar Minecraft. Especificamente, MineRL consiste em várias tarefas, como encontrar uma caverna ou construir uma casa.

No próprio Minecraft, também existem inúmeras outras tarefas que exigem diferentes habilidades e variam em dificuldade: Construir uma picareta de madeira, por exemplo, é muito mais simples do que construir uma picareta de diamante, que requer mais etapas intermediárias. Os jogadores humanos geralmente precisavam de mais de 20 minutos e cerca de 24.000 ações para isso.

Quatro anos se passaram desde que o MineRL foi publicado pela primeira vez. Todos os anos, vários participantes competem entre si com suas abordagens de IA nas várias tarefas. Todas as equipes têm acesso a uma versão especial do Minecraft, bem como a uma extensa coleção de vídeos de jogabilidade que servem como material de treinamento.

Porque, em vez de confiar apenas no aprendizado por reforço, que é rapidamente sobrecarregado pelas tarefas complexas do mundo aberto, a equipe por trás do MineRL vê uma solução possível em abordagens híbridas que contam com o aprendizado imitativo como elemento central.

Os avanços no MineRL podem, portanto, abrir caminho para inúmeras aplicações nas quais os sistemas de IA aprendem a executar ações a partir de modelos humanos, como operar computadores, smartphones ou robôs incorporados.

OpenAI coleta 70.000 horas de jogo como material de treinamento

Agora, em um novo trabalho de pesquisa, uma equipe da OpenAI mostra como uma mistura de treinamento em vídeo e aprendizado por reforço pode abrir caminho para uma IA fazer uma picareta de diamante. Central para o trabalho é o que é chamado Pré-treinamento de vídeo (VPT) que envolve o treinamento de um modelo de IA com grandes quantidades de vídeo de jogo bruto e apenas uma pequena quantidade de vídeo processado por humanos.

Especificamente, o OpenAI coletou quase 270.000 horas de vídeos do Minecraft, que foram editados para pouco menos de 70.000 horas de jogo puro. Além disso, os contratados registraram outras 2.000 horas de jogo, incluindo dados de entrada de teclado e mouse. A OpenAI investiu pouco menos de 2.000 nesses vídeos.

Com os dados de vídeo rotulados, o OpenAI treinou um chamado Modelo de Dinâmica Inversa (IDM) que aprendeu com imagens de eventos passados e futuros no jogo para prever as entradas correspondentes do teclado e do mouse. O IDM então rotulou as 70.000 horas de jogo bruto – então o pequeno investimento de $ 2.000 desbloqueou um enorme tesouro de dados.