Por que a IA de pôquer do Facebook é um grande passo para a inteligência artificial

Sumário

Poker é um jogo difícil
poker com mais jogadores é ainda mais difícil
O que torna a IA do Facebook especial
Ele não pode calcular uma estratégia ideal
Compensa possíveis mudanças de estratégia
Não mostra suas cartas
Atinge nível de classe mundial por apenas 150 dólares americanos
IA de pôquer sem pôquer?

A inteligência artificial do Facebook e da Carnegie Mellon University derrotou cinco jogadores simultaneamente em um torneio de pôquer. Por que é um grande negócio.

Apelidado de “Pluribus”, a inteligência artificial derrotou cinco jogadores profissionais simultaneamente na variante de pôquer mais popular do mundo, “No Limit Texas Hold’em”. Os oponentes não eram pesos leves: entre outros, o seis vezes campeão mundial de pôquer Chris “Jesus” Ferguson enfrentou o sistema de IA.

É a primeira vez que uma IA vence neste nível contra cinco oponentes simultaneamente. Em 2017, os mesmos pesquisadores conseguiram derrotar os melhores jogadores várias vezes com o predecessor IA Libratus”. Naquela época, porém, a IA enfrentava apenas dois jogadores por vez. Os desenvolvedores continuaram a mexer com a IA do pôquer por muitos anos.

Há 12 anos, tentei fazer minha primeira IA de pôquer na faculdade e sonhava em vencer os melhores profissionais do mundo. Após sete anos de doutorado, estou animado em anunciar que finalmente consegui! Tem sido uma aventura e tanto. Espero ansioso pelo próximo! https://t.co/jqRjKPUru4

– Noam Brown (@polynoamial) 11 de julho de 2019

Poker é um jogo difícil

O pôquer é considerado um grande desafio para a inteligência artificial, pois o jogo possui algumas peculiaridades não encontradas, digamos, no xadrez ou no Go.

Devido às cartas ocultas dos outros jogadores, as informações com as quais a IA pode trabalhar estão incompletas. Avaliar os adversários e esconder a própria mão torna-se uma parte essencial da estratégia.

Isso cria complexidade: a IA precisa de um bom entendimento do jogo, precisa reagir com flexibilidade a novas informações e, ao mesmo tempo, manter sua cara de pôquer.

poker com mais jogadores é ainda mais difícil

Se houver apenas um oponente, as variáveis são mantidas dentro dos limites e a IA pode desenvolver o chamado estratégia ótima. Todas as IAs de jogos conhecidas com “habilidades sobre-humanas” tentam fazer isso – seja no xadrez, Go ou Starcraft.

Essas estratégias ótimas, também chamadas de equilíbrio de Nash na teoria dos jogos, tornam teoricamente impossível perder em grande escala. Por exemplo, a estratégia de equilíbrio de Nash para pedra-tesoura-papel é selecionar aleatoriamente pedra, tesoura ou papel com igual probabilidade . Na prática, você ainda pode perder jogos individuais, mas, em média, ganha o dia.

No entanto, no pôquer, assim que vários jogadores estão envolvidos e desenvolvem uma estratégia de forma independente, há muitas possibilidades para encontrar uma solução ideal – os movimentos possíveis não são mais previsíveis.

Além disso, os jogadores reagem uns aos outros e mudam de estratégia, por exemplo, em resposta a novas cartas ou apostas aumentadas.

A IA, portanto, enfrenta um grande desafio: cada jogador possui informações que os outros jogadores não possuem. Uma IA de pôquer bem-sucedida deve antecipar essas informações ocultas, incorporá-las à sua tomada de decisão e desenvolver uma estratégia com base nelas.

No entanto, essa estratégia não deve ser previsível: os jogadores humanos a explorariam. Se a IA fizer imediatamente uma aposta alta em uma boa mão, os oponentes sempre desistirão do jogo. A IA do pôquer deve, portanto, agir de forma imprevisível.

Usando uma combinação de métodos, os pesquisadores de IA do Facebook desenvolveram uma IA de pôquer quase imbatível, apesar de sua complexidade. A solução deles pode se tornar o modelo para outro software de IA que funcione fora de um jogo de pôquer.

O que torna a IA do Facebook especial

Ele não pode calcular uma estratégia ideal

Para a IA do pôquer, vários jogadores significam: não pode desenvolver uma ótimo estratégia e é forçado a confiar em uma combinação de (apenas) promissor estratégia e reação flexível. Ao mesmo tempo, deve manter sua mão em segredo.

Os pesquisadores contam com uma mistura de um plano de estratégia, que a IA usa no início de cada rodada, e um algoritmo de busca, que tenta encontrar de forma flexível a melhor estratégia para a respectiva situação de jogo durante o jogo em andamento.

A IA desenvolveu o projeto jogando contra si mesma. O método é conhecido do jogo de tabuleiro AI AlphaZero da Deepmind e Starcraft AI Alphastar da OpenAI, por exemplo. Após cerca de sete horas, a IA atingiu o desempenho de jogadores medianos, após 20 horas o de profissionais.

Compensa possíveis mudanças de estratégia

No jogo, a IA usa seu plano de estratégia treinado e também se baseia no algoritmo de busca para ajustar sua estratégia com flexibilidade. O algoritmo de busca calcula as probabilidades de movimentos possíveis, tanto quanto o poder de computação permite.

Aqui, também, as peculiaridades do jogo de pôquer desempenham um papel: no xadrez, os movimentos possíveis podem ser calculados com bastante antecedência; existe uma melhor solução clara. No pôquer, os jogadores sempre podem seguir estratégias diferentes, as cartas são desconhecidas – há mais de uma solução.

A IA calcula várias probabilidades para até quatro estratégias com antecedência. Destes, deriva a estratégia mais promissora em média.

Não mostra suas cartas

Para disfarçar suas cartas, a IA adota uma abordagem semelhante: não segue a solução mais óbvia que corresponda às suas cartas. Em vez disso, ele calcula diferentes movimentos possíveis com mãos diferentes e faz um compromisso.

Dessa forma, a IA encontra uma estratégia vencedora e mantém seus oponentes na dúvida. Ele blefa e vê através dos blefes. Então você poderia dizer que a IA do Facebook aprendeu a lidar com mentirosos – e a mentir.

Atinge nível de classe mundial por apenas 150 dólares americanos

A IA foi treinada em oito dias em um servidor com CPU de 64 núcleos e 512 GB de RAM. No total, o treinamento custou cerca de 150 dólares americanos. Em comparação, o AlphaGo do Google usou 1.920 CPUs e 280 GPUs para treinamento e provavelmente custou vários milhões de dólares americanos.

Ao contrário da tendência de investir cada vez mais poder de computação no treinamento de IA, os pesquisadores realmente precisavam de menos poder para o Pluribus do que para o antecessor mais fraco, IA.

Isso mostra que o futuro da pesquisa de IA pode não ser prejudicado pela crescente fome de desempenho, afinal. Mesmo desenvolvedores que não têm acesso a grandes servidores em nuvem e bilhões de dólares americanos podem contribuir para o progresso da IA.

IA de pôquer sem pôquer?

A IA também pode ser usada fora do pôquer no futuro: o próprio Facebook vê possíveis aplicações em análise de fraude, segurança cibernética e controle de frotas de táxis ou robôs. Todas essas áreas são comparáveis ao pôquer: vários jogadores existem em um ambiente com informações incompletas.

Os recursos da IA também podem ser usados para jogos de negócios ou negociações simuladas. Isso pode ser útil para militares, diplomacia ou negócios.

Para trabalhar em áreas fora do pôquer, a IA deve, é claro, ser adaptada e desenvolvida – atualmente, ela só pode jogar pôquer. Mas pode fazer isso tão bem que o Facebook decidiu não publicar a IA. Ele teme que os jogadores possam usá-lo para esvaziar os cassinos online.