Sumário
Modelos de linguagem grandes, como o GPT-3 da OpenAI, devem fornecer melhores respostas com o que é chamado de solicitação de Cadeia de Pensamento (CoT). O que é CoT Prompting e como pode ajudar?
Autores: Moritz Larsen, Prof. Dra. Doris Weßels
O uso de modelos generativos de linguagem de IA, como o GPT-3 da OpenAI, pode levar a resultados surpreendentes. Isso se deve à falta de verificabilidade e explicabilidade de tais sistemas de “caixa preta”, que é uma característica inerente dos sistemas de aprendizado profundo. O número continuamente crescente de parâmetros se correlaciona positivamente com o desempenho de “Large Language Models (LLM)”.
Eles resolvem as tarefas cada vez melhor, mas o caminho da solução geralmente permanece intransparente. Agora, um avanço pode ser alcançado com a chamada “Cadeia de Pensamento”, a abreviação de CoT. Com este método, o modelo é solicitado a explicar a solução passo a passo.
Os prompts descrevem o requisito para o modelo selecionado em linguagem natural. No chamado “prompt zero-shot”, uma instrução ou pergunta como “Explique o termo Cadeia de Sugestão de Pensamento” é suficiente para chegar a um resultado. Quanto mais preciso o texto, maior a probabilidade de os resultados corresponderem às expectativas.
Além disso, podemos usar exemplos para explicar ao modelo com mais detalhes o que esperamos que seja o resultado.
Um exemplo (prompt de disparo único) já pode ser suficiente, vários exemplos (prompt de poucos disparos) instruem o modelo com mais precisão. Mesmo pequenas alterações no prompt podem levar a resultados totalmente diferentes. O objetivo do “design de prompt” ou “engenharia de prompt” é encontrar o prompt ideal para que o modelo de linguagem resolva melhor a tarefa em mãos (Liu et al. 2021). Pequenas adições ao prompt podem levar a um resultado de melhor qualidade nesse aspecto.
Acrescentar a frase “Vamos considerar passo a passo…” ou alguma forma dessa frase que indique que uma abordagem passo a passo é necessária tem um efeito significativo. Ele encoraja o modelo de linguagem a representar uma abordagem passo a passo para resolver uma tarefa e, dessa forma, torna sua suposta cadeia de pensamento visível para os usuários.
Em seus experimentos com diferentes modelos de linguagem, os pesquisadores do Google conseguiram provar que a qualidade dos resultados é melhorada pelo CoT solicitando acima de um determinado tamanho de modelo (Wei/Zhou 2022). Essa é outra grande vantagem além do ganho de transparência.
Como a solicitação de “cadeia de pensamento” afeta a saída de modelos de linguagem
Os exemplos a seguir, que são resultados inevitavelmente únicos e não reproduzíveis devido à produção aleatória de resultados, foram produzidos no Playground usando o modelo Davinci-2 da família de modelos GPT-3 da OpenAI e devem ser avaliados como saídas “escolhidas a dedo”.
Exemplo 1: Impacto da solicitação de CoT em tarefas aritméticas
A solicitação do CoT será explicada usando uma tarefa aritmética. Na Tabela 1, o lado esquerdo mostra o texto de entrada sem o prompt do CoT. O lado direito mostra o mesmo texto de entrada e adicionalmente o prompt do CoT que é particularmente relevante aqui: “Vamos pensar passo a passo e explicar o cálculo passo a passo”.
Na parte inferior, o resultado gerado pelo AI é exibido em cada caso. No lado esquerdo está uma resposta detalhada que repete as informações da tarefa e dá o resultado. No lado direito, você pode ver uma representação das quatro etapas individuais que explicam o resultado.
Tarefa aritmética sem prompt CoT: | Problema aritmético com prompt CoT: |
Qual é a demanda anual de água de uma residência unifamiliar com quatro pessoas que ficam em casa em média 200 dias por ano e usam uma média de 100 litros de água por dia? | Qual é a demanda anual de água de uma família unifamiliar com quatro pessoas que ficam em casa em média 200 dias por ano e usam uma média de 100 litros de água por dia?
Vamos pensar passo a passo e explicar o cálculo passo a passo. |
Resultado sem solicitação de CoT: | Resultado com prompt de CoT: |
A demanda anual de água de uma família unifamiliar, com quatro pessoas morando, que ficam em casa em média 200 dias por ano e precisam em média de 100 litros de água por dia, é de 80.000 litros. | Número de pessoas na casa: 4 pessoas
Número médio de dias em que as pessoas da casa ficam em casa: 200 dias Consumo médio de água por pessoa por dia: 100 litros 4 pessoas * 200 dias * 100 litros de água = 80.000 litros de água por ano |
Tabela 1: Comparação da tarefa de aritmética sem prompt CoT (esquerda) e com prompt CoT (direita).
Este exemplo mostra que os primeiros passos em direção à explicabilidade podem ser dados por um design de prompt inteligente. No entanto, a explicabilidade se refere apenas à saída e às etapas da solução formal, não à estrutura interna da rede neural artificial subjacente (KNN) como resultado do Deep Learning, que ainda é considerado uma “caixa preta”. A (suposta) cadeia de pensamentos de uma IA gerada pela solicitação do CoT não deve ser mal interpretada como uma visão real da lógica do modelo de IA.
Exemplo 2: A solicitação de CoT melhora a explicação de uma citação?
Este outro exemplo é sobre a explicação de uma citação. Como citação, escolhemos o seguinte trecho do texto de Hannes Bajohr “Inteligência Artificial e Literatura Digital. Theory and Practice of Connectionist Writing” em relação à autoria no contexto de textos gerados por IA:
“A ruptura de paradigmas também toca na questão da autoria, cujo lado humano passa por um distanciamento cada vez maior na estrutura homem-máquina. Enquanto no paradigma sequencial ainda se poderia falar plausivelmente de autoria secundária, que consiste na formulação de uma sequência de regras, cuja execução produz a obra – aqui a ideia de um “escritor de escritores” faz todo o sentido – com os KNNs um se depara com autoria terciária: apenas o conjunto de dados para o treinamento permanece a ser definido, a partir do qual o KNN forma independentemente o modelo, e os parâmetros permanecem a serem determinados, por meio dos quais o modelo finalmente produz a saída. Com AIs de linguagem grande como GPT-3, mesmo isso não é mais possível, porque o treinamento é muito complexo para adaptá-lo a novos conjuntos de dados. A ‘programação’ é feita pela formulação de linguagem normal de prompts (‘prompt design’) seguindo o modelo de comunicação dialógica – aqui pode-se até falar de autoria quaternária.” (Bajohr 2022) See More
O prompt à esquerda consiste em duas partes: A primeira parte é a citação acima mencionada (mostrada na tabela com o espaço reservado <> por motivos de espaço). A segunda parte é a tarefa ou pergunta “O que esta citação de Hannes Bajohr descreve?”.
O prompt do lado direito contém os mesmos elementos e, adicionalmente, a frase crucial “Vamos pensar passo a passo para chegar a uma conclusão”. que visa estimular a apresentação do procedimento passo a passo.
Tarefa sem prompt CoT: | Tarefa com prompt CoT: |
< O que essa citação de Hannes Bajohr descreve? |
< O que essa citação de Hannes Bajohr descreve? Vamos pensar passo a passo para chegar a uma conclusão. |
Resultado sem solicitação de CoT: | Resultado com prompt de CoT: |
Esta citação de Hannes Bajohr descreve a quebra entre os paradigmas sequencial e KNN. No paradigma sequencial, pode-se falar em autoria secundária, que consiste na formulação de uma sequência de regras cuja execução produz a obra. Em KNNs, no entanto, só é possível especificar os parâmetros por meio dos quais o modelo produz a saída. No caso de AIs de linguagem grande, como GPT-3, isso não é mais possível. | Em primeiro lugar, assume-se que no paradigma sequencial existe uma autoria secundária (sic!), constituída por uma sequência de regras cuja execução produz a obra. Essa ideia de um ‘escritor do escritor’ faz sentido nesse contexto.
O próximo passo é apontar que nas KNNs (redes neurais artificiais) existe uma autoria terciária. Isso significa que o conjunto de dados para treinamento e os parâmetros por meio dos quais o modelo finalmente produz a saída são criados pelo próprio KNN. Na última etapa, é mencionado que para IAs de linguagem grande, como GPT-3, existe até uma autoria quaternária. Isso significa que o treinamento é tão elaborado que não é mais possível adaptá-lo a novos conjuntos de dados. A ‘programação’ aqui é feita pela formulação de linguagem normal de prompts (‘design de prompt’) seguindo o modelo de comunicação dialógica. Esta citação descreve, portanto, o fato de que a autoria das obras mudou de autoria secundária para terciária e quaternária à medida que a inteligência artificial evoluiu. |
Tabela 2: Explicação de uma citação sem prompt CoT (esquerda) e com prompt CoT (direita).
Se você comparar os resultados, notará à primeira vista que a saída com prompt CoT é muito mais extensa. Uma estrutura com marcadores pode ser vista. As quebras de linha após cada parágrafo, que foram geradas pelo modelo de linguagem além do texto, também contribuem para essa estruturação. A estrutura, portanto, dá a impressão de que os aspectos individuais da citação são retomados e uma conclusão é tirada deles na última etapa.
Aqui, o procedimento passo a passo fica claro. A declaração central da citação é reconhecida e dividida em três seções, e em cada caso é mencionada qual forma de autoria está associada a ela. Na segunda seção, no entanto, há um erro no conteúdo. Diz-se que o conjunto de dados e os parâmetros são criados independentemente pelo KNN. De acordo com Bajohr, no entanto, este não é precisamente o caso, mas são os elementos que são determinados pelos humanos.
No entanto, não podemos entender como esse erro de conteúdo surge. A cadeia de pensamentos, ou mais precisamente o processamento passo a passo para chegar a uma conclusão, continua sendo uma saída do modelo de linguagem cuja origem não pode ser rastreada devido ao problema da caixa preta. Finalmente, a última seção resume corretamente a mensagem principal.
A saída sem o prompt do CoT, por outro lado, é um único bloco de texto. Fica claro que nenhum procedimento passo a passo foi sugerido pelo prompt. Embora uma divisão da citação em três partes também seja reconhecível aqui, ela não é explicitada por palavras e formatação apropriadas.
Em termos de conteúdo, a primeira frase resume adequadamente a declaração principal. No entanto, apenas a forma de autoria secundária é mencionada no curso posterior, as outras formas não são mencionadas. Erros de conteúdo não são encontrados nesta saída. Deste ponto de vista, pode ser visto como uma forma parcialmente extraída e reduzida da citação.
Como esses resultados serão avaliados depende, entre outras coisas, de nossa expectativa subjetiva. Mas o prompt do CoT também leva objetivamente a um resultado melhor?
A saída sem o prompt CoT não contém um erro de conteúdo e resume apropriadamente o conteúdo da citação na primeira frase, mas não se aprofunda. A tarefa (“O que esta citação descreve?”) está, portanto, cumprida. A saída do prompt CoT, por outro lado, contém um erro de conteúdo, mas chega a uma conclusão correta e satisfaz todas as formas de autoria.
A questão do prompt certo e o perigo da antropomorfização
Ambos os exemplos fornecem apenas uma pequena amostra das oportunidades e desafios que a inspiração direcionada apresenta. Escrever modelos ou tê-los escritos automaticamente é uma tarefa desafiadora que requer tempo e experiência.
O uso de IA em modelos de linguagem se tornará cada vez mais relevante na educação no futuro. No entanto, para lidar com sucesso com a IA, é crucial saber qual tipo de solicitação produzirá o resultado desejado.
Com o uso crescente de inteligência artificial (IA), surge a questão de saber se e em que medida essas novas tecnologias também trazem novos riscos. Um desses riscos é a antropomorfização de uma IA, onde se supõe que um modelo de linguagem de IA tenha capacidades e modos de pensar humanos (Larsen/Weßels 2022). No Google, isso levou até à demissão de um funcionário que atribuiu consciência a uma IA de fala (Bastian 2022).
Um provável risco associado à humanização é a redução ou abandono de uma distância crítica. Entre outras coisas, isso pode nos levar a confiar excessivamente em um sistema de IA e revelar informações que, de outra forma, manteríamos para nós mesmos (Weidinger et al. 2022).
A tendência atual de um número exponencialmente crescente de parâmetros em modelos de linguagem AI (Megatron-Turing NLG com 530 bilhões de parâmetros e PaLM com 540 bilhões de parâmetros ) ainda estimula o sonho de uma IA forte. O DALL-E 2, também da OpenAI, permite o caminho do texto para a imagem com o apertar de um botão. Aqui, também, as instruções são dadas em linguagem natural (prompt zero-shot).
Recursos multitarefa ainda mais abrangentes são fornecidos por Gato, agente de IA da Deepmind , que também é dito ser capaz de realizar movimentos. Kersting fala de um “ponto de virada” neste contexto, já que tamanho e capacidades se correlacionam em modelos de linguagem neural (Kersting 2022).
Ele enfatiza a necessidade de construir o próprio ecossistema de IA da Alemanha para reduzir a dependência de modelos de linguagem de IA americanos ou mesmo asiáticos, que por sua natureza também trazem sua cultura e valores com seus dados de treinamento e os refletem na geração de texto.
Sobre os autores
Moritz Larsen: Aluno de mestrado em Pedagogia, Linguagem e Variação na Kiel Christian Albrechts University; colaborador do projeto IA Students’ Academic Writing in the Age of AI” no Centro de Pesquisa e Desenvolvimento da Kiel University of Applied Sciences.
Doris Weßels: Professor de Sistemas de Informação com foco em Gerenciamento de Projetos e Processamento de Linguagem Natural na Kiel University of Applied Sciences; líder do projeto de IA “The Academic Writing of Students in the Age of AI” e chefe do Centro Virtual de Competências “Ensinar e Aprender a Escrever com Inteligência Artificial – Ferramentas e Técnicas para Educação e Ciência” .
Bibliografia
- Bajohr, H. (2022): Deixando escrever: Textos sobre literatura no digital. 1ª ed. Berlim.
- Bastian, M. (2022): Pesquisador acha que a nova IA do Google é deliberada – e é demitida . In: O decodificador. (23.06.2022).
- Kersting, K. (2022): Comentário de Kristian Kersting: ponto de virada na inteligência artificial. In: iX Magazin/heise online . (6 de junho de 2022).
- Larsen, M./Weßels, D. (2022): Sugestão de Cadeia de Pensamento – AI Transfer Hub SH . (22 de agosto de 2022).
- Liu, P./Yuan, W./Fu, J./Jiang, Z./Hayashi, H./Neubig, G. (2021): Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Processamento de Linguagem.
- OpenAI: GPT-3 . (25 de julho de 2022).
- Wei, J./Zhou, D. (2022): Os modelos de linguagem executam o raciocínio por meio da cadeia de pensamento : blog de IA do Google. (11 de maio de 2022).
- Weidinger, L./Uesato, J./Rauh, M./Griffin, C./Huang, P.-..S./Mellor, J./Glaese, A./Cheng, M./Balle, B./ Kasirzadeh, A./Biles, C./Brown, S./Kenton, Z./Hawkins, W./Stepleton, T./Birhane, A./Hendricks, LA/Rimell, L./Isaac, W./Haas , J./Legassick, S./Irving, G./Gabriel, I. (2022): Taxonomia de Riscos apresentados por Modelos de Linguagem. Em: Conferência ACM 2022 sobre Justiça, Responsabilidade e Transparência . Nova York, NY, EUA. PP. 214-229.