Sumário
O Deepmind apresenta uma nova estrutura de pesquisa para agentes de IA em ambientes simulados, como videogames, que podem interagir de maneira mais flexível e natural com humanos.
Os sistemas de IA alcançaram grande sucesso em videogames como Dota ou Starcraft, derrotando jogadores profissionais humanos. Isso é possível graças a funções de recompensa precisas que são ajustadas para otimizar os resultados do jogo: os agentes foram treinados usando vitórias e derrotas únicas calculadas por código de computador. Onde essas funções de recompensa são possíveis, os agentes de IA às vezes podem alcançar um desempenho sobre-humano.
Mas muitas vezes – especialmente para comportamentos humanos cotidianos com resultados em aberto – não existe uma função de recompensa tão precisa.
Para um agente de IA ser capaz de “colocar um copo por perto”, por exemplo, ele precisaria lidar com uma variedade de possibilidades. Existem diferentes formulações linguísticas do mesmo pedido, ambiguidades intrínsecas à linguagem (o que é “próximo”?), fatores irrelevantes (por exemplo, a cor do copo) e muitas maneiras de atender ao pedido.
Deepmind se esforça para uma interação mais natural entre humanos e IA
Os pesquisadores da Deepmind estão agora introduzindo um novo paradigma de aprendizado e treinamento para desenvolver agentes que possam interagir e aprender naturalmente com os humanos.
Para conseguir isso, a Deepmind conta com humanos para criar tarefas que os agentes de IA devem executar em ambientes simulados. O Deepmind usa os dados resultantes para otimizar os agentes. Esses agentes, treinados com feedback humano, podem entender melhor “conceitos humanos difusos” e ter interações “fundamentadas e abertas” com humanos, de acordo com a Deepmind.
Ainda em sua infância, esse paradigma cria agentes que podem ouvir, falar, fazer perguntas, navegar, pesquisar e recuperar, manipular objetos e realizar muitas outras atividades em tempo real.
mente profunda
Agentes de IA aprendem com humanos em um teatro interativo
Para sua nova estrutura de pesquisa, a Deepmind desenvolveu um teatro 3D interativo no qual agentes de IA e usuários humanos podem se mover livremente como avatares e interagir e cooperar uns com os outros.
Qualquer troca entre humanos e avatares ocorria via linguagem natural em um chat. Aqui, os humanos definem o contexto fazendo perguntas ou tarefas aos agentes. O vídeo a seguir mostra algumas dessas tarefas e como os agentes de IA (já treinados) as resolvem.
No ambiente Playhouse, a equipe de pesquisa também coletou dados de interação para treinamento com aprendizado por reforço. De acordo com a Deepmind, o conjunto de dados gerado inclui 25 anos de interações em tempo real entre agentes e centenas de humanos.
Aprender com humanos significa aprender para humanos
Para os agentes avançados de IA, a Deepmind primeiro clonou o comportamento e as interações dos usuários humanos no teatro. Sem isso, os agentes de IA agiriam aleatoriamente e de maneiras que os humanos não poderiam entender, escreve Deepmind.
Esse comportamento inicial foi então otimizado por feedback humano com aprendizado por reforço de acordo com o princípio clássico de tentativa e erro. No entanto, a recompensa ou punição não era baseada em uma pontuação, mas os humanos avaliavam se as ações contribuíam para atingir o objetivo ou não.
Com base nessas interações, o Deepmind treinou um modelo de recompensa que poderia prever as preferências humanas. Esse modelo de recompensa serviu como um mecanismo de feedback para otimização adicional dos agentes por meio do aprendizado por reforço.
As tarefas e perguntas para o processo de aprendizagem vieram de humanos, bem como de agentes que imitavam tarefas e perguntas humanas: um agente fazia perguntas e tarefas, o outro respondia.
Comportamentos diversos e surpreendentes
De acordo com a Deepmind, os agentes treinados com feedback humano podem resolver uma variedade de tarefas que a equipe não havia previsto anteriormente. Por exemplo, eles organizaram objetos com base em duas cores alternadas ou trouxeram aos usuários um objeto semelhante ao que estavam segurando no momento.
Essas surpresas surgem porque a linguagem permite um conjunto quase infinito de tarefas e perguntas por meio da composição de significados simples. Além disso, como pesquisadores, não especificamos os detalhes do comportamento do agente. Em vez disso, as centenas de humanos que se envolvem em interações criaram tarefas e perguntas durante o curso dessas interações.
mente profunda
Quando avaliados com usuários humanos, os agentes de IA treinados com aprendizado por imitação e aprendizado por reforço tiveram um desempenho significativamente melhor do que os agentes que dominaram apenas a imitação.
O processo de treinamento também pode ser executado várias vezes para otimizar ainda mais os agentes com um modelo de recompensa atualizado, dizem os pesquisadores. Agentes treinados dessa forma foram capazes até de superar usuários humanos em média para algumas instruções complexas.
A Deepmind vê a estrutura apresentada como uma contribuição para o desenvolvimento de agentes de IA para videogames que podem interagir de forma mais natural com humanos, em vez de apenas agir de acordo com comportamentos pré-programados. A estrutura também pode ajudar no desenvolvimento de assistentes digitais ou robóticos adequados para o uso diário.
Humanos como referência para o comportamento da máquina
A integração do feedback humano no treinamento de sistemas de IA é vista por diversas instituições como uma forma de melhor adaptar a IA às necessidades dos humanos. O Deepmind, por exemplo, já apresentou um chatbot que incorpora feedback humano no processo de treinamento. O laboratório de pesquisa A CarperAI planeja publicar uma IA de fala de código aberto correspondente .
A OpenAI vê o feedback humano no desenvolvimento de IA como um componente central de alinhamento positivo da IA . Com o Instruir modelos GPT OpenAI já otimizou grandes modelos de linguagem com feedback humano que pode gerar texto preferido por humanos, apesar de ter menos parâmetros.