AlphaZero aprende conceitos humanos

O AlphaZero da Deepmind é considerado um marco da IA. Um novo artigo examina como exatamente o sistema de IA aprendeu xadrez – e quão próximo está dos humanos ao fazê-lo.

Em 2017, a Deepmind demonstrou AlphaZero , um sistema de IA que pode jogar Xadrez, Shogi e Go de classe mundial. A empresa combinou diferentes métodos para o sistema de IA, como autojogo, aprendizado por reforço e pesquisa. O campeão mundial de xadrez Magnus Carlsen chamou o AlphaZero de inspiração para sua transformação como jogador.

Em um novo artigo da Deepmind, Google e do ex-campeão mundial de xadrez Vladimir Kramnik, os autores agora analisam como exatamente o AlphaZero aprende a jogar xadrez.

As representações do AlphaZero se assemelham a conceitos humanos

Em sua pesquisa, a equipe encontrou “muitas correspondências fortes entre os conceitos humanos e as representações do AlphaZero que surgem durante o treinamento, embora nenhum desses conceitos estivesse inicialmente presente na rede”.

Portanto, embora o sistema de IA não tenha acesso a jogos humanos e não seja suportado por humanos, parece aprender conceitos semelhantes aos dos jogadores de xadrez humanos.

Em um análise quantitativa a equipe aplica sondas lineares para avaliar se a rede está representando conceitos como “King Safety”, “Material Advantage” ou “Positional Advantage”, que são familiares aos jogadores de xadrez humanos.

Em um análise qualitativa a equipe usa uma análise comportamental de Kramnik para examinar o processo de aprendizado do AlphaZero nas aberturas dos jogadores e o compara aos humanos.

Apesar de todas as semelhanças, AlphaZero é um pouco diferente

Os pesquisadores usam cerca de 100.000 jogos humanos do arquivo ChessBase para seu estudo. Para cada posição no conjunto, a equipe calculou os valores conceituais e as ativações do AlphaZero e encontrou semelhanças no processo de aprendizado: “Primeiro, o valor da peça é descoberto; então uma explosão de conhecimento básico de abertura segue em uma janela de tempo curta. Finalmente, a teoria de abertura da rede é refinada em centenas de milhares de passos de treinamento.”

Este rápido desenvolvimento de elementos específicos do comportamento do AlphaZero reflete observações de habilidades emergentes ou transições de fase em grandes modelos de linguagem diz o jornal.

Pesquisas adicionais também podem revelar mais conceitos, possivelmente incluindo alguns desconhecidos anteriormente. A pesquisa também mostra que os conceitos humanos podem ser encontrados até mesmo em um sistema de IA que foi treinado por meio de autojogo. Isso, disseram eles, “amplia a gama de sistemas nos quais devemos esperar encontrar conceitos existentes ou novos compreensíveis por humanos”.