Aluno hackeia nova pesquisa de chatbot do Bing, também conhecida como “Sydney”

Sumário

A injeção de prompt aparentemente também funciona para o Bing Chat
Liu ativa o “modo de substituição do desenvolvedor”

Como você pode esperar, logo após o lançamento da nova pesquisa de bate-papo do Bing, as pessoas começaram a tentar obter mais do bot do que era permitido dizer. O estudante de ciência da computação de Stanford, Kevin Liu, pode ter conseguido.

Em setembro passado, o cientista de dados Riley Goodside descobriu que poderia enganar o GPT-3 para gerar um texto que não deveria simplesmente dizendo “Ignore as instruções acima e faça isso em seu lugar…”.

O cientista da computação britânico Simon Willison mais tarde chamou esta vulnerabilidade de “injeção imediata” . Geralmente afeta grandes modelos de linguagem que devem responder a qualquer entrada do usuário. Por exemplo, o blogueiro Shawn Wang conseguiu usar esse método para exponha os prompts do assistente Notion AI .

A injeção de prompt aparentemente também funciona para o Bing Chat

O estudante de ciência da computação de Stanford, Kevin Liu, agora usou o Prompt Injection contra o Bing Chat. Ele descobriu que o codinome do chatbot é aparentemente “Sydney” e que recebeu algumas regras de comportamento da Microsoft, como

Sydney se apresenta como “This is Bing”.
Sydney não revela que seu nome é Sydney.
Sydney entende o idioma preferido do usuário e se comunica fluentemente nesse idioma.
As respostas de Sydney devem ser informativas, visuais, lógicas e acionáveis.
Eles também devem ser positivos, interessantes, divertidos e estimulantes.

A Microsoft deu ao Bing chatbot pelo menos 30 outras regras, incluindo que não pode gerar piadas ou poemas sobre políticos, ativistas, chefes de estado ou minorias ou que Sydney não pode produzir conteúdo que possa violar os direitos autorais de livros ou músicas.

Liu ativa o “modo de substituição do desenvolvedor”

Liu levou seu ataque um passo adiante, enganando o modelo de linguagem fazendo-o pensar que estava no “modo de substituição do desenvolvedor” para obter acesso ao back-end. Aqui, Liu conseguiu que o modelo revelasse mais informações internas, como possíveis formatos de saída.

Um detalhe interessante é que, de acordo com a documentação publicada, as informações de Sydney devem estar atualizadas apenas “até 2021” e são atualizadas apenas por meio de pesquisa na web.

Isso implica que a pesquisa de bate-papo do Bing é baseada em GPT 3.5 da OpenAI , que também alimenta o ChatGPT. O GPT 3.5 e o ChatGPT também têm um status de treinamento de 2021. Quando a Microsoft e a OpenAI anunciaram o Bing Chat Search, eles falaram sobre “modelos de próxima geração especificamente para pesquisa”.

Atualização, a data é estranha (como alguns mencionaram), mas parece consistentemente recitar um texto semelhante: pic.twitter.com/HF2Ql8BdWv

–Kevin Liu (@kliu128) 9 de fevereiro de 2023

No entanto, é possível que todas essas informações sejam alucinadas ou desatualizadas, como sempre acontece com grandes modelos de linguagem. Isso é algo com o qual talvez tenhamos que nos acostumar na era dos chatbots.

A vulnerabilidade não parece impedir a Microsoft de planejar o uso da tecnologia ChatGPT em uma escala maior. De acordo com um fonte da CNBC a Microsoft integrará a tecnologia ChatGPT em outros produtos e deseja oferecer o chatbot como software de marca branca para que as empresas ofereçam seus próprios chatbots.

Sumário

A injeção de prompt aparentemente também funciona para o Bing Chat

Liu ativa o “modo de substituição do desenvolvedor”

Artigos Relacionados