Sumário
De acordo com um novo estudo, o ChatGPT é um pau para toda obra, mestre em nada. Mas o chatbot mudará a inteligência artificial para sempre, dizem os pesquisadores.
Em um novo artigo, uma equipe da Universidade de Ciência e Tecnologia em Wrocław, na Polônia, mostra como o OpenAI ChatGPT executa em vários benchmarks de aprendizado de máquina de processamento de linguagem natural (NLP).
Para fazer isso, os pesquisadores compararam o chatbot com os melhores modelos de IA da atualidade em 25 tarefas diferentes. A conclusão deles: o ChatGPT é um “pau para toda obra, mestre de ninguém”.
Pesquisadores desenvolvem uma API personalizada para enviar mais de 38.000 solicitações ao ChatGPT
Até agora, o ChatGPT foi testado principalmente em tarefas generativas, ou seja, tarefas que exigem que o modelo de IA escreva ou resuma texto ou responda a perguntas, por exemplo, em um contexto jurídico ou médico. Em contraste, a equipe polonesa está se concentrando nas capacidades analíticas, especialmente na compreensão semântica e pragmática do chatbot OpenAI.
Isso inclui problemas típicos de PNL, como classificação de texto simples para humor ou sarcasmo, problemas mais complexos, como correção gramatical ou análise de sentimento, e aqueles em que palavras ambíguas precisam ser classificadas corretamente ou o raciocínio é testado.
Essas tarefas não são relevantes apenas para pesquisas, mas também para empresas, que podem usá-las para classificar automaticamente análises de produtos ou moderar conteúdo com a ajuda da IA.
Para cada benchmark, a equipe cria prompts personalizados que solicitam que o ChatGPT forneça respostas no formato correto. Para lidar com o grande volume de solicitações – mais de 38.000 solicitações – os pesquisadores usam uma API PyGPT personalizada e até 20 contas OpenAI.
O ChatGPT ainda não está ao nível dos sistemas de ponta
Em todos os 25 benchmarks, o ChatGPT foi consistentemente superado pelos melhores modelos de IA de hoje para cada tarefa. Em média, a qualidade dos modelos especializados foi de 73,7 por cento, enquanto a do ChatGPT foi de 56,6 por cento. O ChatGPT foi particularmente fraco em tarefas envolvendo um “problema muito subjetivo de percepção emocional e interpretação individual do conteúdo”.
Excluídas as oito tarefas relacionadas à emoção, a qualidade média do ChatGPT sobe para 69,7%, enquanto a dos outros métodos sobe para 80%. Em alguns casos, a qualidade do ChatGPT pode ser melhorada em alguns pontos percentuais com exemplos adicionais no prompt.
Portanto, o desempenho do ChatGPT ainda está abaixo dos modelos SOTA – mas, além das tarefas relacionadas à emoção, a diferença não é muito grande, concluem os pesquisadores. O ChatGPT é, portanto, um pau para toda obra, mas sem realmente dominar nenhuma tarefa.
O ChatGPT será “mudança de vida” e “impulsionador de IA”
Os pesquisadores, portanto, esperam que o ChatGPT também seja usado em áreas clássicas da PNL. A equipe vê uma vantagem especial na interatividade do bot. As desvantagens são a menor precisão e o estado beta do sistema.
O ChatGPT também oferece um recurso exclusivo de autoexplicação que torna mais fácil para as pessoas entenderem o que o bot está dizendo. Esta é uma parte importante da inteligência artificial explicável (XAI), diz o artigo. Como resultado, os pesquisadores “acreditam firmemente que o ChatGPT pode acelerar o desenvolvimento de várias tecnologias relacionadas à IA e mudar profundamente nossas vidas diárias”. Eles esperam que o ChatGPT e sistemas semelhantes de IA avancem na pesquisa de IA e desencadeiem uma “revolução econômica e social da IA”.
No futuro, a equipe planeja testar o ChatGPT em mais benchmarks de raciocínio, bem como em uma variedade de métodos de engenharia imediata.