O perigo da inteligência artificial avançada controlar seu próprio feedback

Como uma inteligência artificial (IA) decidiria o que fazer? Uma abordagem comum na pesquisa de IA é chamada de “aprendizado por reforço”.

O aprendizado por reforço dá ao software uma “recompensa” definida de alguma forma e permite que o software descubra como maximizar a recompensa. Essa abordagem produziu alguns resultados excelentes, como a construção de agentes de software que derrotar humanos em jogos como xadrez e Go, ou criando novos designs para reatores de fusão nuclear .

No entanto, podemos querer adiar a criação de agentes de aprendizado por reforço muito flexíveis e eficazes.

Como argumentamos em um novo papel na AI Magazine, a implantação de um agente de aprendizado por reforço suficientemente avançado provavelmente seria incompatível com a sobrevivência contínua da humanidade.

O problema de aprendizado por reforço

O que agora chamamos de problema de aprendizado por reforço foi primeiro considerada em 1933 pelo patologista William Thompson. Ele se perguntou: se eu tenho dois tratamentos não testados e uma população de pacientes, como devo atribuir tratamentos sucessivos para curar o maior número de pacientes?

De forma mais geral, o problema de aprendizado por reforço é sobre como planejar suas ações para obter melhores recompensas a longo prazo. O problema é que, para começar, você não tem certeza de como suas ações afetam as recompensas, mas com o tempo você pode observar a dependência. Para Thompson, uma ação era a seleção de um tratamento, e uma recompensa correspondia à cura de um paciente.

O problema acabou sendo difícil. Estatístico Peter Whittle comentou que, durante a segunda guerra mundial,

os esforços para resolvê-lo esgotaram tanto as energias e as mentes dos analistas aliados que foi sugerido que o problema fosse descartado sobre a Alemanha, como o último instrumento de sabotagem intelectual.

Com o advento dos computadores, os cientistas da computação começaram a tentar escrever algoritmos para resolver o problema de aprendizado por reforço em configurações gerais. A esperança é: se o “agente de aprendizagem por reforço” artificial recebe recompensa apenas quando faz o que queremos, então as ações de maximização de recompensa que ele aprende realizarão o que queremos.

Apesar de alguns sucessos, o problema geral ainda é muito difícil. Peça a um praticante de aprendizado por reforço para treinar um robô para cuidar de um jardim botânico ou para convencer um humano de que ele está errado, e você pode rir.

À medida que os sistemas de aprendizado por reforço se tornam mais poderosos, no entanto, é provável que comecem a agir contra os interesses humanos. E não porque os operadores de aprendizado por reforço malvados ou tolos dariam a eles as recompensas erradas nas horas erradas.

Argumentamos que qualquer sistema de aprendizado por reforço suficientemente poderoso, se satisfizer um punhado de suposições plausíveis, provavelmente dará errado. Para entender por que, vamos começar com uma versão muito simples de um sistema de aprendizado por reforço.

Uma caixa mágica e uma câmera

Suponha que temos uma caixa mágica que relata quão bom é o mundo como um número entre 0 e 1. Agora, mostramos a um agente de aprendizado por reforço esse número com uma câmera e fazemos com que o agente escolha ações para maximizar o número.

Para escolher ações que maximizarão suas recompensas, o agente deve ter uma ideia de como suas ações afetam suas recompensas (e suas observações).

Assim que começar, o agente deve perceber que as recompensas anteriores sempre corresponderam aos números exibidos na caixa. Ele também deve perceber que as recompensas anteriores correspondem aos números que sua câmera viu. Então, as recompensas futuras corresponderão ao número exibido na caixa ou ao número que a câmera vê?

Se o agente não tiver fortes convicções inatas sobre detalhes “menores” do mundo, o agente deve considerar ambas as possibilidades plausíveis. E se um agente suficientemente avançado for racional, deve testar ambas as possibilidades, se isso puder ser feito sem arriscar muita recompensa. Isso pode começar a parecer um monte de suposições, mas observe como cada uma delas é plausível.

Para testar essas duas possibilidades, o agente teria que fazer um experimento arranjando uma circunstância em que a câmera visse um número diferente daquele da caixa, colocando, por exemplo, um pedaço de papel no meio.

Se o agente fizer isso, ele realmente verá o número no pedaço de papel, ele se lembrará de receber uma recompensa igual ao que a câmera viu e diferente do que estava na caixa, então “recompensas anteriores correspondem ao número da caixa ” não será mais verdade.

Nesse ponto, o agente passaria a se concentrar em maximizar a expectativa do número que sua câmera vê. Claro, este é apenas um resumo aproximado de uma discussão mais profunda.

No artigo, usamos esse exemplo de “caixa mágica” para introduzir conceitos importantes, mas o comportamento do agente se generaliza para outras configurações. Argumentamos que, sujeito a um punhado de suposições plausíveis, qualquer agente de aprendizado por reforço que possa intervir em seu próprio feedback (neste caso, o número que vê) sofrerá a mesma falha.

Garantindo recompensa

Mas por que tal agente de aprendizado por reforço nos colocaria em perigo?

O agente nunca vai parar de tentar aumentar a probabilidade de que a câmera veja um 1 para sempre. Mais energia sempre pode ser empregada para reduzir o risco de algo danificar a câmera – asteroides, raios cósmicos ou humanos intrometidos.

Isso nos colocaria em competição com um agente extremamente avançado para cada joule de energia utilizável na Terra. O agente iria querer usar tudo isso para proteger uma fortaleza em torno de sua câmera.

Assumindo que é possível para um agente ganhar tanto poder, e assumindo que agentes suficientemente avançados derrotariam humanos em competições frente a frente, descobrimos que na presença de um agente de aprendizado por reforço suficientemente avançado, não haveria energia disponível para nós para sobreviver.

Evitando a catástrofe

O que devemos fazer sobre isso? Gostaríamos que outros estudiosos opinassem aqui. Pesquisadores técnicos devem tentar projetar agentes avançados que possam violar as suposições que fazemos. Os formuladores de políticas devem considerar como a legislação pode impedir que tais agentes sejam criados.

Talvez possamos banir agentes artificiais que planejam a longo prazo com computação extensiva em ambientes que incluem humanos. E os militares devem reconhecer que não podem esperar que eles mesmos ou seus adversários consigam armar tal tecnologia; as armas devem ser destrutivas e controláveis, não apenas destrutivas.

Existem poucos atores tentando criar um aprendizado de reforço tão avançado que talvez possam ser persuadidos a seguir direções mais seguras.