Treinamento de IA: a inteligência artificial se torna mais flexível

Pesquisadores de IA treinam um agente de IA em ambientes cada vez mais complexos. O processo automatizado está superando outras abordagens de treinamento

No aprendizado por reforço, um agente de IA aprende a executar certas tarefas em seu ambiente tentando com muita frequência. Esta IA método de aprendizagem alcançou inúmeros sucessos nos últimos anos e é visto como uma solução potencial para problemas de condução autônoma ou robótica. Exemplos proeminentes são os sistemas de IA da Deepmind, que dominam os jogos de vídeo e de tabuleiro.

Treinar um agente para resolver uma única tarefa em um ambiente específico é relativamente simples. Por exemplo, um agente que apenas precisa se orientar em um labirinto pode memorizar o caminho ou desenvolver uma estratégia simples que o levará ao sucesso naquele ambiente.

Agentes treinados em um ambiente fixo, porém, não generalizam para outros ambientes e, portanto, falham mesmo com pequenas alterações. A pesquisa de IA, portanto, depende de diferentes abordagens para treinar agentes de IA robustos que podem executar muitas tarefas em vários ambientes.

Agentes de IA mais flexíveis: a randomização não é suficiente

Um método óbvio é randomizar os ambientes fornecidos no treinamento. Por exemplo, em uma simulação, um robô pode enfrentar superfícies em constante mudança, degraus, lacunas ou vários labirintos.

Na prática, porém, alterar aleatoriamente o ambiente não é suficiente para treinar agentes robustos. Os pesquisadores de IA estão, portanto, recorrendo a métodos com “currículos adaptativos”, nos quais a complexidade dos ambientes de treinamento é baseada nas capacidades atuais do agente. Um exemplo disso é um simulação de bloco de construção de OpenAI em que um braço robótico simulado continuamente apresenta a outro tarefas mais complexas.

Tais métodos adaptativos já demonstraram na prática que podem produzir agentes mais robustos em menos etapas de treinamento do que os métodos randomizados. Como os métodos adaptativos ajustam a distribuição dos ambientes de treinamento à habilidade do agente, esses métodos são considerados uma forma de “design de ambiente não supervisionado” (UED) em que uma espécie de professor independentemente seleciona e atribui ambientes ao agente para treinamento.

ACCEL modifica ambientes desafiadores por conta própria

No trabalho de pesquisa “Adversarially Compounding Complexity by Editing Levels” (ACCEL), pesquisadores de IA da Universidade de Oxford, University College London, University College Berkeley, University Oxford e Meta AI apresentam um novo método UED para treinar agentes de IA mais robustos.

Os pesquisadores fazem com que um gerador selecione aleatoriamente os ambientes de treinamento e os classifique de acordo com sua dificuldade. Para conseguir isso, o ACCEL pontua a diferença entre o desempenho real de um agente em um ambiente e seu possível melhor desempenho, ou “arrependimento”.

Nesse sentido, o ACCEL é semelhante ao Prioritized Level Replay (PRL), atualmente um dos métodos UED mais fortes. No entanto, enquanto o PRL seleciona aleatoriamente novos ambientes de treinamento após cada execução de treinamento, no ACCEL um curador avalia os resultados do treinamento antes da próxima execução.

Ambientes que antes eram muito difíceis para o agente são minimamente modificados aleatoriamente: em um labirinto, por exemplo, paredes são substituídas ou adicionadas; em uma simulação de caminhada, o número de passos ou as diferenças de altura são alterados.

Os ambientes modificados são reatribuídos ao currículo de treinamento – desde que seu valor de Regret ainda seja alto após a modificação. ACCEL, portanto, gera constantemente novos ambientes no limite das capacidades do agente.

ACCEL supera outros métodos

Comparado a outros métodos de UED, o ACCEL treina consistentemente agentes que podem lidar com ambientes difíceis após o treinamento. Por exemplo, um agente ACCEL treinado pode encontrar seu caminho em labirintos projetados por humanos sem treinamento adicional e até mesmo transferir suas habilidades, com limitações, para labirintos que são significativamente maiores do que os exemplos de treinamento.

Na simulação do BidpedalWalker, o método ACCEL também gera um currículo cada vez mais difícil com base nas habilidades do agente. O ACCEL cria um agente altamente capaz que supera consistentemente os agentes treinados com outros métodos UED em transferência zero (veja o exemplo de labirinto acima), dizem os autores. ACCEL, portanto, produz generalistas capazes.

No entanto, eles disseram que é provável que, à medida que os ambientes mais difíceis evoluam, os especialistas se tornem cada vez mais importantes, como os produzidos pelo método POET UED. O POET co-evolui pares agente-ambiente e busca estratégias especializadas para resolver tarefas específicas.

ACCEL cria currículos cada vez mais complexos. No final, o agente vai embora. | Vídeo: https://accelagent.github.io/

Esses especialistas podem ser mais eficazes na descoberta de comportamentos diversos e complexos – mas ao preço de uma adaptação potencialmente exagerada a seus respectivos ambientes: o modelo memoriza soluções individuais em vez de aprender a reconhecer os recursos que levam à solução. A interação entre generalistas e especialistas é uma fascinante questão em aberto, dizem os autores.

Para obter mais informações sobre o método UED e uma demonstração interativa, visite o página do projeto ACCEL .

Leia mais sobre Inteligência Artificial:

  • Inteligência artificial para pilotar caças americanos em 2024
  • Chefe de IA da Meta: três grandes desafios da inteligência artificial
  • Diagnósticos de IA: inteligência artificial para prever ataques cardíacos