Deepmind AlphaZero: Quanto maior, melhor, dizem pesquisadores de IA

Pesquisadores de IA encontraram leis de escala para grandes modelos de linguagem em 2020. Um novo artigo mostra que essas leis também podem existir para algoritmos de aprendizado por reforço.

Em um artigo publicado em 2020 chamado “Leis de escala para modelos de linguagem neural”, pesquisadores de IA investigaram leis de escala empíricas para o desempenho de modelos de linguagem como GPT-2 ou GPT-3, mostrando que o desempenho dos modelos é dimensionado em várias ordens de magnitude dependendo do tamanho do modelo, do tamanho do conjunto de dados e da computação usada para treinamento.

Em seu trabalho, a equipe derivou hiperparâmetros ideais para treinar grandes modelos de linguagem, considerando um orçamento de poder computacional fixo, como o tamanho ideal da rede e a quantidade de dados de treinamento. Em 2022, os pesquisadores da Deepmind confirmaram com Chinchilla que tais leis de escala existem, mas que os hiperparâmetros propostos pela primeira equipe subestimaram o impacto positivo de mais dados de treinamento. De acordo com a Deepmind, para um treinamento ideal, o tamanho do modelo e o número de tokens de treinamento devem ser dimensionados igualmente.

Leis de escala impulsionam o desenvolvimento da IA

Já no lançamento do GPT-2, os pesquisadores da OpenAI notaram que o desempenho de sua rede aumentava com o tamanho. Então, com o GPT-3, a empresa mostrou quão grande era o potencial salto de desempenho do dimensionamento. Em 2020, as leis de escala deram a esse fenômeno uma base teórica, forneceram hiperparâmetros (semi)ótimos para um orçamento fixo de computação e, desde então, motivaram inúmeros desenvolvimentos e investimentos em modelos maiores.

Longe dos grandes modelos de linguagem, houve poucas tentativas de encontrar leis de escala. No entanto, modelos projetados de forma semelhante, como para geração de imagens ou Pré-treinamento em vídeo da OpenAI para Minecraft mostram uma tendência semelhante.

Pesquisadores da Goethe-University Frankfurt agora mostram que essas leis de escala também podem existir fora desses “modelos de fundação”.

Leis de escala para aprendizado por reforço

Em seu trabalho, os pesquisadores realizam uma análise no estilo do documento de lei de dimensionamento de 2020, mas, em vez de dimensionar modelos de linguagem, eles dimensionam agentes AlphaZero RL jogando dois jogos diferentes: Connect Four e Pentago. Esses jogos são candidatos adequados para seu estudo porque não são triviais de aprender, mas são fáceis o suficiente para permitir um número maior de agentes com uma quantidade razoável de recursos, diz o artigo.

Em seus experimentos, os pesquisadores mostram que o desempenho do agente escala como uma lei de potência com o tamanho da rede neural “quando os modelos são treinados até a convergência no limite da computação abundante”. Eles acreditam que isso fornece evidências de que as leis de escala conhecidas dos modelos de linguagem também estão presentes nos modelos AlphaZero. Eles suspeitam que outros algoritmos de aprendizado por reforço também exibem comportamento de dimensionamento semelhante.

Em uma extrapolação de seus resultados, a equipe também mostra que os inovadores sistemas de IA AlphaGo Zero e AlphaZero desenvolvidos pela Deepmind podem ter usado redes neurais que eram muito pequenas e poderiam ter um desempenho ainda melhor com redes maiores.

Também é possível que mudanças nos hiperparâmetros, como as demonstradas para Chinchilla, possam permitir uma distribuição ótima diferente dos recursos de treinamento no caso do AlphaZero. Investigar o efeito dos hiperparâmetros fará parte dos próximos trabalhos da equipe.