Sumário
O DreamerV3 da Deepmind é um algoritmo de aprendizado por reforço geral e escalável – e pode coletar diamantes no Minecraft sem ajuda humana.
Antes que os sistemas de IA da Deepmind vencessem os campeões mundiais de Go, a empresa iniciou sua marcha triunfante no aprendizado por reforço com os clássicos do Atari. Hoje, os pesquisadores de IA continuam trabalhando em novos modelos de aprendizado por reforço que jogam videogames. No entanto, o foco mudou para jogos mais complexos, com mundos abertos e inúmeros desafios.
UMA exemplo principal é Minecraft : o jogo oferece sinais de recompensa esparsos, requer exploração de ambientes abertos e tem horizontes de tempo longos.
Muitas pessoas não entendem como o Minecraft é desafiador para agentes de IA.
Deixe-me colocar deste jeito. AlphaGo resolve um jogo de tabuleiro com apenas 1 tarefa, muitos estados contáveis e total observabilidade.
O Minecraft tem tarefas infinitas, jogabilidade infinita e toneladas de conhecimento do mundo oculto. pic.twitter.com/ybBkP35SZY
— Jim Fan (@DrJimFan) 11 de janeiro de 2023
Pesquisadores da Deepmind enfrentam esse desafio com DreamerV3, que pode coletar diamantes no Minecraft pela primeira vez sem dados de especialistas humanos ou currículos feitos à mão. O DreamerV3 também pode ser usado em vários outros domínios RL.
O DreamerV3 da Deepmind é um algoritmo geral para aprendizado por reforço
Os algoritmos atuais já podem resolver muitas tarefas em diferentes domínios – mas precisam ser adaptados de forma elaborada para cada tarefa. Isso vai contra o ideal de inteligência geral, que pode realizar tarefas totalmente diferentes sem modificações.
O DreamerV3 difere de outros algoritmos RL: é um algoritmo geral e escalável com hiperparâmetros . Isso reduz a quantidade de experiência e recursos computacionais necessários para aplicar o aprendizado por reforço a um problema, disseram os pesquisadores.
O DreamerV3 é aplicável a muitos domínios, incluindo aqueles com “ações contínuas e discretas, entradas visuais e de baixa dimensão, mundos 2D e 3D, diferentes orçamentos de dados, frequências de recompensa e escalas de recompensa”.
Por exemplo, o DreamerV3 pode jogar 55 jogos do Atari, manipular objetos com braços robóticos em simulações ou explorar e concluir tarefas em mundos virtuais – como o Minecraft.
O algoritmo depende de três redes neurais : um é o World Model, que aprende representações de entrada de sensor e prevê representações futuras e recompensas para ações potenciais. Os outros dois são o Crítico, que avalia o valor de cada situação, e o Ator, que aprende a atingir situações que maximizem esse valor.
DreamerV3 é eficiente
Deepmind testou DreamerV3 em sete domínios em mais de 150 tarefas contra os melhores algoritmos disponíveis em cada um, muitos dos quais são projetados especificamente para esses desafios. Alcançou um forte desempenho em todos os testes e ficou à frente do líder anterior em quatro áreas – apesar dos hiperparâmetros fixos. O antecessor DreamerV2 teve um desempenho mais fraco, a equipe documenta as diferenças para a nova versão no artigo.
Vídeo: Deepmind
No Minecraft, DreamerV3 foi capaz de minerar diamantes. Isso é especial porque o algoritmo precisa executar várias etapas intermediárias para isso, como coletar recursos ou fazer escolhas em uma bancada.
Na verdade, outros modelos de IA conseguiram fazer isso antes, VPT da OpenAI foi até capaz de criar uma picareta de diamante. No entanto, o VPT exigiu mais de 70.000 horas de vídeos de jogabilidade do Minecraft e foi treinado em 720 GPUs Nvidia V100 por nove dias. DreamerV3 aprendeu a coletar diamantes em 17 dias em um único V100 sem dados humanos.
O algoritmo também escala com sucesso, diz a equipe, demonstrando melhor desempenho em vários benchmarks e maior eficiência de dados.
Aplicado imediatamente, o DreamerV3 é o primeiro algoritmo a coletar diamantes no Minecraft do zero sem dados humanos ou currículos, um desafio de longa data em inteligência artificial. Nosso algoritmo geral torna o aprendizado por reforço amplamente aplicável e permite escalar para problemas difíceis de tomada de decisão.
Do papel.
Mais informações estão disponíveis em página do projeto DreamerV3 . O código também deve estar disponível lá em breve.