Reconhecimento de texto AI: cada detector tem sua opinião

Com o advento dos geradores de texto AI, como o ChatGPT, surgiu a questão: como o texto AI pode ser diferenciado do texto escrito por humanos?

Essa questão abrange todos os domínios, desde professores que precisam avaliar tarefas, agências que contratam redatores e mecanismos de pesquisa que tentam classificar o conteúdo. Os detectores de texto AI tendem a não responder a essa pergunta, pelo menos não de forma confiável.

Até agora, soluções como Detectar GPT, GPTzeroe até mesmo o próprio classificador de texto do OpenAI não foi capaz de fornecer resultados convincentes para ChatGPT e GPT-3bem como outros geradores de IA: nem a IA nem o texto humano são reconhecidos de forma confiável como tal, o que pode ter consequências negativas se os tomadores de decisão no setor educacional, por exemplo, confiarem nos resultados.

Os detectores de IA não parecem funcionar de forma confiável

Autor Brandon Gorrell do newsletter Fios Piratas iniciou um teste mais extenso, alimentando vários textos dele e do ChatGPT nos detectores de IA mais populares, além do da OpenAI no GPTZero, Content at Scale, Writer.com, Corrector.app e CopyLeaks. Seus testes mostram que as ferramentas raramente concordam ou são pelo menos vagas em seu julgamento.

No teste de cinco textos enviados pelo autor durante a semana de 13 de fevereiro, os detectores nunca teriam classificado de forma unânime e inequívoca os textos como gerados por IA.

Os resultados das ferramentas para uma descrição de zebras gerada por IA:

GPTZero: “É provável que seu texto seja escrito inteiramente por IA”

OpenAI: “O classificador considera o texto possivelmente gerado por IA.”

Conteúdo em escala: “Provavelmente IA e humano!”

Writer.com: “75% de conteúdo gerado por humanos”

Corrector.app: “Falso 42,55%”

Vazamentos de cópia: “Conteúdo de IA detectado”

Os resultados das ferramentas para um convite de casamento gerado por IA:

GPTZero: “É provável que seu texto seja escrito inteiramente por IA”

OpenAI: “O classificador considera o texto possivelmente gerado por IA.”

Conteúdo em escala: “Não está claro se é conteúdo de IA!”

Writer.com: “13% de conteúdo gerado por humanos”

Corrector.app: “Falso 99,97%”

Vazamentos de cópia: “Conteúdo de IA detectado”

De acordo com o experimento, as ferramentas funcionaram melhor com texto escrito por humanos e, em alguns casos, todas estavam corretas. No entanto, Gorrell também observa que os resultados variaram muito ao longo do estudo, tornando a avaliação sistemática praticamente impossível. Mas isso é ainda mais um sinal de falta de confiabilidade.

Reconhecimento de texto AI confiável pode não ser realista

O jornalista de tecnologia Jon Stokes, cofundador da Ars Technica, acha que sabe por quê. É provável que alguns detectores estejam familiarizados com as probabilidades de um determinado modelo, mas seriam sobrecarregados pelo texto de um modelo diferente, disse ele.

Isso é ainda mais questionável porque a maioria dos detectores de IA divulga suas habilidades como independentes de qualquer modelo específico. No despertar do modelos de linguagem mais facilmente personalizáveisque provavelmente também dificultam a detecção, isso não reflete bem nos serviços frequentemente pagos.

Afinal, com o lançamento de seu classificador, A OpenAI admitiu que só pode classificar de forma confiável e correta uma pequena fração do conteúdo de IA. O CEO da OpenAI, Sam Altman, também declarou publicamente várias vezes que há não existem detectores de texto AI permanentemente confiáveis e que o sistema educacional não deve depender dela.