O novo jogo AI do Deepmind está definido para ser um divisor de águas no mundo real também

O sistema de IA da Deepmind, “DeepNash”, domina o complexo jogo de tabuleiro Stratego. Para a equipe de pesquisa da Deepmind, o DeepNash é um potencial trampolim para a IA que pode dominar situações cotidianas complexas.

O jogo de conquista baseado em turnos Stratego é extremamente complexo, muito mais complexo do que os jogos de tabuleiro Chess and Go já dominado por Deepmind , pois requer significativamente mais movimentos e é jogado com a face para baixo. Muitas das informações relevantes para o decorrer do jogo não são conhecidas – ao contrário do xadrez ou Go, onde todos os jogadores olham para o mesmo tabuleiro.

Em 2019, Os pesquisadores da Meta AI introduziram o Pluribus para dominar o pôquer , que também é jogado com a face para baixo. No entanto, as técnicas usadas lá não puderam ser transferidas para o muito mais longo Stratego, que geralmente requer centenas de movimentos antes do final do jogo.

Até agora, o Stratego era considerado um grande desafio na pesquisa de IA que só poderia ser resolvido no nível amador. DeepNash muda isso.

O DeepNash supera de forma confiável os profissionais humanos

DeepNash venceu 97 por cento das partidas contra outros sistemas de computador no Stratego e 42 (84 por cento) de 50 duelos online contra humanos. Em abril, garantiu um lugar na lista dos 3 melhores da plataforma online Stratego Gravon, que existe desde 2002.

A equipe de pesquisa da Deepmind vê esse sucesso como um passo importante em direção a sistemas de IA que podem lidar melhor com situações complexas com informações desconhecidas no mundo real.

O DeepNash, ou mais especificamente, os métodos inventados para sua criação, tem o potencial de ser um “mudança de jogo” no mundo real, de acordo com Deepmind. Eles poderiam ajudar a resolver problemas caracterizados por conhecimento imperfeito e cenários imprevisíveis, como otimizar o gerenciamento de tráfego para reduzir os tempos de viagem e as emissões dos veículos.

Ao criar um sistema de IA generalizável que seja robusto diante da incerteza, esperamos trazer os recursos de resolução de problemas da IA ​​ainda mais para o nosso mundo inerentemente imprevisível.

mente profunda

Esse treinamento de IA, no entanto, ainda exigiria uma simulação complexa de cenários cotidianos, um problema que permanece em grande parte sem solução.

DeepNash aprende o equilíbrio de Nash

Ao contrário dos sistemas de IA anteriores, como para xadrez ou Go, o Deepmind não dependia mais da busca comum em árvore de Monte Carlo para o DeepNash. Este método não conseguiu lidar com a complexidade do Stratego devido à grande quantidade de movimentos e à quantidade de informações ocultas.

Em vez da tecnologia de pesquisa, a Deepmind contou com uma abordagem de treinamento de IA sem modelo, na qual o sistema aprende jogando contra si mesmo sem intervenção humana. A Deepmind usou o algoritmo Regularized Nash Dynamics (R-NaD), que descreve como uma “nova ideia algorítmica da teoria dos jogos”. A empresa está lançando o código para R-NaD como código aberto no Github para pesquisadores interessados.

O algoritmo orienta a IA durante o auto-jogo para um equilíbrio de Nash, em homenagem ao matemático da teoria dos jogos Jon Forbes Nash. O equilíbrio de Nash descreve uma situação de jogo em que todos os jogadores mantêm sua estratégia, pois um desvio levaria a um resultado pior. A pior taxa de vitória possível para o DeepNash seria, portanto, de 50%, assumindo que o oponente age tão perfeitamente quanto o sistema de IA.

Durante um extenso autotreinamento de reforço, Deep Nash aprendeu essa estratégia ideal em cerca de 5,5 bilhões de jogos simulados – e também se apropriou de conceitos de jogos humanos no processo, um fenômeno que foi já evidente no jogo AI AlphaZero da Deepmind . Deep Nash dominou o blefe, por exemplo, movimentos estratégicos que transmitem força em uma posição fraca ou o sacrifício direcionado de certas peças do jogo para descobrir informações.

Mais vídeos de jogos contra especialistas humanos: Jogo 2 , Jogo 3 , Jogo 4.

O ex-campeão mundial da Stratego, Vincent de Boer, esteve envolvido no desenvolvimento e avaliação do DeepNash. Ele está “surpreso” com o nível de jogo alcançado e confiaria no sistema de IA para desempenhar um bom papel em um campeonato mundial humano.