Sumário
A inteligência artificial particularmente poderosa, que cumpre seus objetivos, mas segue caminhos duvidosos para fazê-lo, pode se tornar perigosa para a humanidade. A OpenAI visa evitar esse cenário distópico com três abordagens.
O exemplo mais vívido de falha no alinhamento da inteligência artificial vem do filósofo Nick Bostrom: em 2003, ele publicou o texto “Questões éticas em inteligência artificial avançada” , que descreve uma IA otimizada para produzir clipes de papel. Ele descobre que os corpos humanos são um recurso valioso para a produção de clipes de papel. O resultado dessa história é óbvio.
A abordagem atual de Bostrom : as pessoas devem confiar na capacidade intelectual de uma IA poderosa, ensinar o que as pessoas querem e garantir que ela tenha interesse em atender às necessidades humanas. A IA requer bom senso, diz Bostrom.
OpenAI foca na interação entre humanos e máquinas
A OpenAI, empresa de IA com sede nos EUA, agora oferece um vislumbre de sua pesquisa de alinhamento, que atende às demandas de Bostrom, pelo menos até certo ponto. O princípio da OpenAI é que os sistemas de IA devem aprender com o feedback humano e, ao mesmo tempo, apoiar os humanos na avaliação da IA.
A empresa deseja maximizar as abordagens de alinhamento atuais para explorar e documentar suas possibilidades e limitações. Em pesquisa, a OpenAI conta com três pilares para isso.
- Treinamento de sistemas de IA com feedback humano
- Sistemas de treinamento de IA para auxiliar na avaliação humana
- Sistemas de treinamento de IA para fazer pesquisas de alinhamento
A OpenAI reconhece que essas três áreas sozinhas são muito superficiais, pois as pessoas fazem julgamentos diferentes dependendo de sua formação cultural, por exemplo. O alinhamento é, portanto, não apenas um problema técnico, mas também um desafio social e político. Uma questão central é a quem os sistemas de IA devem ser alinhados.
O feedback humano ajuda no alinhamento da IA
Um bloco de construção central da pesquisa de alinhamento atual da OpenAI são os chamados Modelos InstructGPT , derivados de grandes modelos de IA, como GPT-3. Eles são otimizados para melhor atender às necessidades humanas explícitas e implícitas e para considerar valores como veracidade, justiça e segurança. Para modelos InstructGPT, o OpenAI integra avaliações humanas no conjunto de dados para treinamento de IA.
De acordo com a OpenAI, os modelos InstructGPT já são melhor avaliados e preferidos pelos humanos, em média, do que os modelos GPT-3 nativos. Isso é evidente em sua interface de programação para linguagem natural, diz OpenAI, e também apareceu nos primeiros estudos .
Mas mesmo essa classe de modelos ainda produz informações incorretas ou resultados tóxicos. Além disso, é improvável que o treinamento com feedback humano seja suficiente para igualar a inteligência de máquina potencialmente superior da AGI. Ainda assim, o feedback humano é a pedra angular de uma possível solução de adaptação, diz a OpenAI.
A IA deve facilitar as avaliações para os humanos
Uma fraqueza nas avaliações humanas é o próprio ser humano: quanto mais complexas se tornam as tarefas que uma IA resolve, mais difícil se torna para os humanos fornecer feedback útil ao sistema de IA.
Nesse caso, a IA pode apenas pedir ajuda aos humanos com questões que os humanos podem resolver; no pior dos casos, pode apenas dizer aos humanos o que eles querem ouvir, em vez da verdade.
Os sistemas de IA devem, portanto, dividir processos complexos em etapas individuais que possam ser avaliadas por humanos. Um exemplo é um sistema de IA da OpenAI que suporta a avaliação de um resumo de livro gerado por IA com resumos de capítulos individuais.
A OpenAI vê o desenvolvimento da assistência de IA como a melhor maneira de conduzir mais pesquisas de alinhamento: “Nossas técnicas de alinhamento precisam funcionar mesmo que nossos sistemas de IA proponham soluções muito criativas (como Movimento 37 do AlphaGo ), portanto, estamos especialmente interessados em modelos de treinamento para ajudar humanos a distinguir soluções corretas de soluções enganosas ou enganosas.”
IA se alinha
O terceiro bloco de construção na estratégia de alinhamento da OpenAI: inteligência artificial pesquisando o alinhamento por conta própria.
Há uma razão convincente para essa estratégia: à medida que a IA avança, diz a OpenAI, podemos esperar alguns novos problemas de alinhamento que ninguém previu ainda. Uma solução escalável e fundamental para o problema de alinhamento provavelmente será ilusória.
Seria mais pragmático desenvolver sistemas de IA que pudessem fazer pesquisas de alinhamento mais rápido e melhor do que os humanos. Para os humanos, provavelmente seria muito mais fácil avaliar os resultados da pesquisa de IA do que produzir os próprios resultados da pesquisa, diz a OpenAI.
“Portanto, os pesquisadores humanos concentrarão cada vez mais seus esforços na revisão da pesquisa de alinhamento feita por sistemas de IA, em vez de gerar essa pesquisa por conta própria. Nosso objetivo é treinar modelos para serem tão alinhados que possamos descarregar quase todo o trabalho cognitivo necessário para a pesquisa de alinhamento”, escreve OpenAI.
Sistemas de IA mais estreitos que superam os humanos em seus respectivos domínios já seriam suficientes para pesquisas de alinhamento baseadas em IA. Essas IAs especializadas provavelmente serão mais fáceis de alinhar do que uma potencial AGI, acrescenta a empresa.
Grandes modelos de linguagem contêm “muito conhecimento e informações sobre valores humanos da leitura da Internet” e, portanto, são potencialmente adequados para automatizar a pesquisa de alinhamento, sugere a OpenAI. Além disso, eles não perseguem seus próprios objetivos.
Versões futuras de sistemas de IA, como WebGPT , InstructGPT e Codex podem se tornar a base para essa pesquisa automatizada de alinhamento. Ainda não está claro quando esses sistemas serão poderosos o suficiente.
“Depois de treinar um modelo que pode ser útil, planejamos torná-lo acessível à comunidade de pesquisa de alinhamento externo”, escreve OpenAI.
Riscos da pesquisa de alinhamento
OpenAI também descreve o riscos de suas abordagens de alinhamento. Por exemplo, usar o suporte de IA para avaliações humanas pode levar ao reforço de vieses. Além disso, adaptar a IA geral provavelmente será muito mais desafiador do que adaptar os sistemas de IA atuais, embora a OpenAI espere uma transição suave para sistemas cada vez mais poderosos.
“(…) mas se houver grandes descontinuidades ou mudanças de paradigma, a maioria das lições aprendidas com o alinhamento de modelos como o InstructGPT pode não ser diretamente útil”, escreve OpenAI.
A pesquisa de IA sobre alinhamento também pode ser um risco se os sistemas de IA necessários para isso já forem muito perigosos sem alinhamento. Nesse caso, o alinhamento direto do AGI voltaria ao foco.