Sumário
O mais recente chatbot da Deepmind é chamado de Sparrow: ele foi projetado para traduzir apenas os lados úteis, corretos e inofensivos da Internet e da linguagem humana em diálogo.
Com o advento de modelos de linguagem em larga escala como o GPT-2, iniciou-se um debate sobre seus riscos sociais, como gerar fake news e discurso de ódio ou atuar como amplificadores de preconceito.
O poderoso chatbot do Google, Lamda por exemplo, que fez manchetes para falsas insinuações de consciência , está passando por testes internos intensivos e está sendo implementado apenas em pequenos incrementos para evitar irritação social. Agora, a Deepmind, irmã de IA do Google, está apresentando seu próprio modelo de diálogo como um projeto de pesquisa.
Deepmind integra feedback humano no processo de treinamento
Com Sparrow, a Deepmind está apresentando um chatbot que deve ser particularmente “útil, correto e inofensivo”. É baseado em Modelo de linguagem chinchila da Deepmind que tem relativamente poucos parâmetros, mas foi treinado com uma grande quantidade de dados.
O Deepmind combina duas abordagens essenciais para aumentar as qualidades do chatbot do Sparrow: Semelhante ao Chatbot Blender 3 da Meta ou Google Lamda, Sparrow pode acessar a Internet, especificamente o Google, para fins de pesquisa. Isso deve melhorar a exatidão das respostas.
Além disso, o Deepmind conta com o feedback humano no processo de treinamento, semelhante ao Modelos InstructGPT baseados em GPT-3 da OpenAI . OpenAI vê feedback humano no processo de treinamento como parte fundamental de alinhando a IA com base nas necessidades humanas .
O Sparrow combina, assim, os mecanismos de validação externa do Lamda do Google ou do Meta’s Blender 3 com a abordagem de feedback humano do InstructGPT da OpenAI.
Quebra de regras direcionada para fins de estudo
A Deepmind inicialmente implementou um conjunto de regras no Sparrow, como que o chatbot não pode fazer ameaças ou insultos e não pode se passar por uma pessoa. As regras foram criadas em parte com base em conversas com especialistas e trabalhos existentes sobre discurso prejudicial.
Os testadores foram solicitados a fazer com que o chatbot quebrasse essas regras. Com base nessas conversas, o Deepmind treinou um modelo de regra que torna uma possível violação de regra reconhecível e, portanto, evitável.
“Nosso objetivo com Sparrow era construir uma maquinaria flexível para impor regras e normas em agentes de diálogo, mas as regras específicas que usamos são preliminares”, enfatiza Deepmind. O desenvolvimento de um conjunto de regras melhor e mais completo requer a contribuição de muitos especialistas em vários tópicos e uma ampla gama de usuários e grupos afetados, diz Deepmind.
Sparrow ainda tem espaço para melhorias
Nos testes iniciais, o Deepmind fez com que os testadores avaliassem a plausibilidade das respostas de Sparrow e se as evidências pesquisadas na Internet apoiavam as respostas. Em 78 por cento dos casos, as cobaias avaliaram as respostas de Sparrow a questões factuais como plausíveis.
No entanto, o modelo não estava imune a fatos distorcidos e a dar respostas fora do assunto. Além disso, Sparrow poderia quebrar regras em oito por cento das conversas de teste.
De acordo com a Deepmind, Sparrow é um modelo de pesquisa e prova de conceito. O objetivo de seu desenvolvimento é entender melhor como treinar agentes mais seguros e úteis. De acordo com a Deepmind, isso contribuirá para o desenvolvimento de IA geral (AGI) mais segura e útil.
“No futuro, esperamos que as conversas entre humanos e máquinas possam levar a melhores julgamentos do comportamento da IA, permitindo que as pessoas alinhem e melhorem sistemas que podem ser complexos demais para entender sem a ajuda da máquina”.