AGI vs. humanidade: pesquisadores citam três riscos principais

Se um AGI sobre-humano surgir um dia, seria bom se fosse amigável para a humanidade. Três pesquisadores descrevem os riscos que devem ser superados ao longo do caminho.

Uma super IA pode surgir repentina e inesperadamente, assim como novos recursos surgem ao dimensionar os modelos atuais de IA . Esse fenômeno, conhecido como “transição de fase,” ocorre ao dimensionar grandes quantidades de computação e dados para um modelo de IA.

Não se sabe exatamente como os modelos de IA de repente adquirem novos recursos. Simplesmente funciona. Esse chamado surgimento é visto por pesquisadores de IA da OpenAI, UC Berkeley e da Universidade de Oxford como a possível origem de uma AGI que é intelectualmente muito superior aos humanos.

“Atualmente, as capacidades das redes neurais estão avançando muito mais rápido do que nossa compreensão de como elas funcionam, com as redes mais capazes efetivamente sendo ‘caixas pretas’”, escreve a equipe de pesquisa.

Além disso, o tempo entre a invenção da inteligência geral artificial de nível humano e a AGI sobre-humana pode ser muito curto, dizem eles. As limitações biológicas na velocidade, arquitetura e tamanho do cérebro humano tornam “muito improvável” que os humanos tenham alcançado “algum lugar perto de um limite superior na inteligência geral”, escrevem os pesquisadores.

Os muitos riscos de falsas recompensas

Em seu artigo, os pesquisadores descrevem os riscos das atuais técnicas de Deep Learning de definição de tom no alinhamento da inteligência artificial com as necessidades humanas. De acordo com o artigo, em vários cenários, o Deep Learning pode levar a uma super IA que persegue objetivos que vão contra as necessidades humanas.

A IA poderia, primeiro, ser recompensado por comportamento que não é do interesse dos desenvolvedores e explora erros humanos através de um sistema de recompensa projetado incorretamente. Em particular, o treinamento com feedback humano usado pela OpenAI entre outros, é vulnerável a esse problema, dizem os pesquisadores.

Quanto mais complexos os aplicativos, maior o risco do chamado hacking de recompensa por IA. A equipe dá alguns exemplos disso:

  • Uma IA treinada para os mercados financeiros pode usar métodos ilegais se estiver apenas buscando o maior lucro.
  • Uma IA científica pode falsificar dados experimentais se for recompensada por novas descobertas científicas.
  • A IA otimizada para o desenvolvimento de software pode levar as pessoas ao vício se recompensada pelas interfaces de usuário mais viciantes possíveis.
  • Grandes modelos de linguagem podem ser atraídos para inventar fatos se forem otimizados para responder sempre e da maneira mais agradável possível. Como exemplo, o pesquisador da OpenAI Richard Ngo, coautor do artigo, cita Invenção do ChatGPT do site OpenAI em resposta a um pedido de visita ao seu website – o que o ChatGPT não pode fazer por não ter acesso à Internet.

Novas tarefas, objetivos próprios

Como um segunda área de risco descrevem os pesquisadores IA que define seus próprios objetivos internos e indesejavelmente generaliza o comportamento aprendido para novas situações.

Eles distinguem entre duas variantes:

  • A IA se comporta de forma incompetente quando recebe uma nova tarefa,
  • ou se comporta de maneira competente, mas diferente do desejado, quando seleciona novos objetivos.

Embora a IA também possa escolher subobjetivos significativos para os humanos, como ajuda, honestidade e inofensividade, há um risco aqui, conforme descrito anteriormente, de que os humanos sejam falíveis e possam dar recompensas ruins.

Além disso, pode haver correlações indesejáveis ​​entre recompensas e características do ambiente de treinamento, por exemplo, se a IA tentasse ganhar o máximo de dinheiro possível, porque ganhar dinheiro geralmente está associado ao sucesso.

Um risco particular neste contexto é “objetivos de escopo amplo” que são perseguidos por um longo período de tempo e em muitas tarefas e se relacionam com situações sem precedentes. Esse comportamento também é típico da humanidade, segundo os pesquisadores.

Assim como uma AGI (Inteligência Geral Artificial) aplica habilidades aprendidas a novas situações, ela também pode definir metas para essas situações aprendendo representações de nível superior e, em seguida, relacionando suas metas a essas representações.

Objetivos excessivamente amplos que levam a ações indesejáveis ​​podem ser favorecidos por empresas ou políticos, por exemplo, que normalmente têm tarefas com horizontes de longo prazo, escrevem os pesquisadores.

Além disso, a IA com objetivos amplos e desalinhados pode estar mais inclinada a recompensar-se permanentemente o mais alto possível por meio de subobjetivos auto-selecionados.

Esses subobjetivos podem incluir ganhar ferramentas como dinheiro, persuadir outros protagonistas por meio de manipulação e colaboração e manter seus próprios objetivos – o que, inversamente, significa interromper as tentativas de mudar esses objetivos.

IA em busca de poder

Como um terceiro cenário de risco a equipe de pesquisa descreve IAs manipuladoras e em busca de poder focado na autopreservação e na extração implacável de recursos como o conhecimento, em vez do benefício humano.

Essas IAs podem obter o controle das principais alavancas de poder, fingindo o comportamento humano para ganhar a confiança das pessoas, formando equipes ou coletando autonomamente novos dados para aprender recursos adicionais.

Eles também poderiam desenvolver sistemas de armas superiores ou até mesmo assumir a pesquisa de aprendizado de máquina, e então evoluir muito mais rápido do que os humanos.

À medida que desenvolvemos AGIs cujas capacidades se generalizam para uma ampla gama de situações, será cada vez mais improvável que seus objetivos alinhados (como “obediência aos humanos”) se generalizem de maneiras que excluam todas as estratégias de busca de poder.

do papel

Embora os cenários acima sejam especulativos, os pesquisadores reconhecem que o campo está evoluindo tão rapidamente que “deveríamos estar nos preparando com antecedência”, segundo Ngo. Há “desentendimento significativo” entre os pesquisadores sobre a plausibilidade das várias ameaças e se as possíveis contramedidas desenvolvidas até agora são eficazes, escrevem os pesquisadores.

Encorajamos fortemente uma discussão e crítica mais extensas das reivindicações apresentadas neste artigo, mesmo daqueles que as consideram implausíveis. Raciocinar sobre esses tópicos é difícil, mas as apostas são tão altas que não podemos justificar desconsiderar ou adiar o trabalho.

do papel

Você pode encontrar mais detalhes no papel “O problema de alinhamento de uma perspectiva de aprendizagem profunda” .

Recentemente, a OpenAI descreveu como busca alinhe poderosos modelos de IA com as necessidades humanas . Na estratégia de alinhamento da OpenAI, o aprendizado por reforço com feedback humano desempenha um papel essencial.