Sumário
- OpenAI coleta 70.000 horas de jogo como material de treinamento
- O modelo da OpenAI mostra recursos interessantes de disparo zero
- OpenAI abre o caminho para a picareta de diamante
- OpenAI quer treinar com ainda mais dados – e planeja novos experimentos
- OpenAI usa Minecraft para pesquisa em modelos de fundação
A OpenAI usa o Minecraft como exemplo para mostrar como a inteligência artificial pode aprender habilidades complexas com treinamento em vídeo e aprendizado por reforço.
Em 2019, os pesquisadores de IA introduziram pela primeira vez o MineRL Challenge, que visa ensinar a inteligência artificial a jogar Minecraft. Especificamente, MineRL consiste em várias tarefas, como encontrar uma caverna ou construir uma casa.
No próprio Minecraft, também existem inúmeras outras tarefas que exigem diferentes habilidades e variam em dificuldade: Construir uma picareta de madeira, por exemplo, é muito mais simples do que construir uma picareta de diamante, que requer mais etapas intermediárias. Os jogadores humanos geralmente precisavam de mais de 20 minutos e cerca de 24.000 ações para isso.
Quatro anos se passaram desde que o MineRL foi publicado pela primeira vez. Todos os anos, vários participantes competem entre si com suas abordagens de IA nas várias tarefas. Todas as equipes têm acesso a uma versão especial do Minecraft, bem como a uma extensa coleção de vídeos de jogabilidade que servem como material de treinamento.
Porque, em vez de confiar apenas no aprendizado por reforço, que é rapidamente sobrecarregado pelas tarefas complexas do mundo aberto, a equipe por trás do MineRL vê uma solução possível em abordagens híbridas que contam com o aprendizado imitativo como elemento central.
Os avanços no MineRL podem, portanto, abrir caminho para inúmeras aplicações nas quais os sistemas de IA aprendem a executar ações a partir de modelos humanos, como operar computadores, smartphones ou robôs incorporados.
OpenAI coleta 70.000 horas de jogo como material de treinamento
Agora, em um novo trabalho de pesquisa, uma equipe da OpenAI mostra como uma mistura de treinamento em vídeo e aprendizado por reforço pode abrir caminho para uma IA fazer uma picareta de diamante. Central para o trabalho é o que é chamado Pré-treinamento de vídeo (VPT) que envolve o treinamento de um modelo de IA com grandes quantidades de vídeo de jogo bruto e apenas uma pequena quantidade de vídeo processado por humanos.
Especificamente, o OpenAI coletou quase 270.000 horas de vídeos do Minecraft, que foram editados para pouco menos de 70.000 horas de jogo puro. Além disso, os contratados registraram outras 2.000 horas de jogo, incluindo dados de entrada de teclado e mouse. A OpenAI investiu pouco menos de 2.000 nesses vídeos.
Com os dados de vídeo rotulados, o OpenAI treinou um chamado Modelo de Dinâmica Inversa (IDM) que aprendeu com imagens de eventos passados e futuros no jogo para prever as entradas correspondentes do teclado e do mouse. O IDM então rotulou as 70.000 horas de jogo bruto – então o pequeno investimento de $ 2.000 desbloqueou um enorme tesouro de dados.
A OpenAI usou esse enorme conjunto de dados de vídeo rotulado para treinar o que chama de “Modelo de Fundação VPT,” que no treinamento deve prever ações futuras a partir de entradas e quadros passados. Desta maneira, o modelo aprende a prever e clonar o comportamento de jogadores humanos.
O modelo da OpenAI mostra recursos interessantes de disparo zero
A OpenAI implanta o modelo VPT no Minecraft com uma taxa de quadros de 20 Hz e mouse e teclado simulados. Com apenas treinamento em vídeo (zero-shot), o modelo de IA pode executar tarefas que antes eram quase impossíveis apenas com aprendizado de reforço: ele pode cortar árvores, coletar toras, transformar as toras em tábuas e fazer uma mesa de trabalho com essas tábuas. De acordo com a OpenAI, isso leva cerca de 50 segundos para os humanos, ou 1.000 ações de jogo consecutivas.
O modelo também mostra outras ações complexas, como nadar, perseguir e comer animais, e também o “salto de pilar”, em que os jogadores sobem de altura pulando repetidamente e colocando um bloco sob si mesmos.
A OpenAI também treinou o modelo de IA com vídeos rotulados da jogabilidade do Minecraft desde os primeiros dez minutos de um novo jogo para ver se poderia ser ajustado para confiabilidade capacidades de “jogo inicial”.
Após esse ajuste fino, os pesquisadores notaram uma grande melhoria nas capacidades iniciais do jogo. Além disso, o modelo refinado pode aprofundar a árvore tecnológica e produzir ferramentas de madeira e pedra. Em casos isolados, os pesquisadores foram capazes de observar a construção de abrigos rudimentares ou a limpeza de aldeias, incluindo a pilhagem de baús.
Em uma comparação, o OpenAI também mostra que um modelo de IA treinado apenas com dados de vídeo marcados por humanos não pode corresponder aos recursos do modelo VPT. De novo, mais dados levam a melhores resultados.
OpenAI abre o caminho para a picareta de diamante
Em uma etapa posterior, a OpenAI usa o modelo VPT pré-treinado e posteriormente ajustado como base para um agente de IA que aprende por reforço a faça uma picareta de diamante em menos de dez minutos.
Durante o treinamento, o agente é recompensado por coletar e fabricar os objetos relevantes a caminho da picareta. Como esperado, o imitação aprendida do comportamento humano acaba sendo um ponto de partida melhor do que as ações executadas aleatoriamente de agentes de aprendizado por reforço padrão.
De acordo com a OpenAI, essa estratégia inicializada aleatoriamente obtém poucas recompensas porque nunca aprende a coletar logs e raramente coleta gravetos. Em contraste, os agentes baseados no modelo VPT aprendem a fazer picaretas de ferro 80% das vezes, coletar diamantes pouco menos de 20% das vezes e conseguem fazer uma picareta de diamante 2,5% das vezes.
OpenAI diz, isso coloca o Sistema de IA no mesmo nível de um ser humano em média e é o primeiro modelo de IA que pode fazer uma picareta de diamante em um mundo Minecraft sem quaisquer limitações.
O modelo também desenvolveu habilidades úteis de mineração de diamantes, disseram os pesquisadores, como padrões de mineração eficientes, exploração de cavernas, retorno a objetos previamente colocados, como a mesa de trabalho, e técnicas avançadas, como o uso de picaretas de madeira como combustível ao fazer a transição para ferramentas de ferro.
OpenAI quer treinar com ainda mais dados – e planeja novos experimentos
Para refinamentos adicionais, seria possível colete até um milhão de horas de vídeos de treinamento do Minecraft, estimam os pesquisadores. Modelos maiores e mais ajustados prometem mais avanços.
O modelo VPT atual também está condicionado apenas a observações passadas, portanto não pode ser controlado diretamente. No entanto, a equipe da OpenAI conseguiu mostrar em um teste inicial com 17.000 horas de filmagem, incluindo legendas associadas, que uma combinação de VPT mais treinamento com fala acompanhando esse vídeo fornece algum controle.
Uma vez que nos vídeos de gameplay os oradores às vezes comentam sobre suas intenções (por exemplo, “Vamos cortar algumas árvores para fazer um machado de madeira”), o modelo pode fazer conexões entre a linguagem e os antecedentes comportamentais aprendidos.
Para sentenças que incentivam o agente de IA a explorar (por exemplo, “vou explorar” e “vou encontrar água”), o agente de IA se afasta significativamente de seu ponto de partida. Além disso, o agente preferia coletar itens do início do jogo, como sementes, madeira e sujeira, quando solicitado com textos como “Vou coletar sementes / cortar madeira / coletar sujeira”.
Até o momento, esse nível de controle é muito baixo para ser útil, disseram os pesquisadores. Mas mais dados de treinamento, mais poder de computação e um processo de treinamento multimodal no qual o modelo aprende a prever conjuntamente a próxima ação e o texto no estágio final podem mudar isso, avalia a equipe.
OpenAI é abrindo o código dos dados de vídeo capturados por humanos incluindo dados de entrada, o ambiente Minecraft, código de modelo e pesos de modelo.
A empresa também fez parceria com a Competição MineRL-NeurIPS este ano: todos os participantes podem usar os modelos do OpenAI e ajustá-los para resolver as tarefas da competição.
OpenAI usa Minecraft para pesquisa em modelos de fundação
Para OpenAI, o modelo VPT mostra que O pré-treinamento em vídeo abre caminho para que os agentes de IA aprendam a agir assistindo a grandes quantidades de vídeos na Internet. O VPT mostra que o aprendizado de imitação semi-supervisionado de conjuntos de dados de vídeo grandes e disponíveis gratuitamente pode funcionar para domínios que exigem decisões sequenciais, disseram os pesquisadores.
O modelo VPT resultante é um “modelo de fundação” que se assemelha a grandes modelos de linguagem, como o GPT-3 da OpenAI, e pode ser ajustado com dados adicionais – como demonstrado no Minecraft – ou servir como base para agentes de IA que usam aprendizado por reforço. O treinamento do modelo base é possível através do IDM, que no caso do Minecraft gera os dados de entrada correspondentes para os vídeos da Internet. Este método é um alicerce fundamental para o VPT, disseram os pesquisadores.
“A internet contém uma enorme quantidade de vídeos disponíveis publicamente com os quais podemos aprender. Você pode assistir a uma pessoa fazer uma apresentação linda, um artista digital desenhar um belo pôr do sol e um jogador do Minecraft construir uma casa intrincada”, escreve OpenAI em uma postagem no blog. “No entanto, esses vídeos fornecem apenas um registro do que aconteceu, mas não exatamente como isso foi alcançado, ou seja, você não saberá a sequência exata de movimentos do mouse e teclas pressionadas.”
Semelhante aos modelos básicos para fala, o VPT também mostra uma tendência para melhores recursos com mais dados de treinamento. O maior modelo tem quase 500 milhões de parâmetros. Para os experimentos, no entanto, o OpenAI reverteu para um modelo menor com 220 milhões de parâmetros por motivos de custo.
Em princípio, aprender com a interface humana de teclado e mouse permite a modelagem sem perdas de toda a gama de comportamento humano no Minecraft disse OpenAI.
O VPT, portanto, também fornece uma abordagem geral para treinar prioridades comportamentais em espaços de ação difíceis, mas genéricos, em qualquer domínio que tenha uma grande quantidade de dados não rotulados disponíveis gratuitamente – como o uso do computador.
Além do Minecraft, isso inclui quase todos os softwares com material de vídeo suficiente. O OpenAI deve melhorar a capacidade de controle dos modelos integrando a faixa de áudio/legenda, em breve poderão surgir modelos que podem operar o software do dia-a-dia de maneira rudimentar. Esses modelos poderiam, por exemplo, processar DALL-E 2 imagens através da API OpenAI diretamente no Photoshop.