GPT-4 pode passar no Bar Exam, dizem pesquisadores de IA

Os pesquisadores testaram o GPT-3.5 com perguntas do EUA Bar Exam. Eles preveem que o GPT-4 e modelos comparáveis ​​poderão passar no exame muito em breve.

Nos EUA, quase todas as jurisdições exigem um exame de licença profissional conhecido como Exame de Ordem. Ao passar neste exame, os advogados são admitidos na barra de um estado dos EUA.

Na maioria dos casos, os candidatos devem completar pelo menos sete anos de educação pós-secundária incluindo três anos em escola de direito credenciada.

A preparação para o exame leva de semanas a meses, e cerca de uma em cada cinco pessoas falha na primeira tentativa. Pesquisadores do Chicago Kent College of Law, da Bucerius Law School Hamburg e do Stanford Center for Legal Informatics (CodeX) examinaram agora como o OpenAI modelo GPT-3.5 que também serve de base para ChatGPT se apresenta no Exame da Ordem.

O GPT-3.5 da OpenAI não é especialista em textos jurídicos

O GPT-3.5 e o ChatGPT da OpenAI mostram um desempenho impressionante em vários cenários de processamento de linguagem natural, muitas vezes superando os modelos explicitamente treinados para domínios específicos. Os dados de treinamento para os modelos GPT não são completamente conhecidos, mas os modelos provavelmente viram textos legais de fontes públicas, escrevem os pesquisadores.

No entanto, dada a natureza complexa da linguagem jurídica e o treinamento do GPT-3.5 no desempenho de tarefas gerais, é uma questão em aberto se o GPT-3.5 ou modelos comparáveis ​​poderiam ter sucesso em avaliações de tarefas legais, dizem eles.

A equipe está, portanto, testando o modelo de linguagem grande do OpenAI no seção de múltipla escolha multistate da Ordem dos Advogados Exame, conhecido como Multistate Bar Examination (MBE). Para os testes, os pesquisadores usam apenas prompts de tiro zero.

O MBE faz parte do exame completo, inclui cerca de 200 questões e foi desenvolvido para testar conhecimento jurídico e compreensão de leitura. Segundo os pesquisadores, os cenários fictícios exigem um domínio semântico e sintático acima da média da língua inglesa.

Um exemplo se parece com isso:

Pergunta: Um homem processou uma ferrovia por danos pessoais sofridos quando seu carro foi atingido por um trem em um cruzamento desprotegido. Uma questão importante é se o trem apitou antes de chegar ao cruzamento. A ferrovia ofereceu o depoimento de um morador que mora próximo ao cruzamento há 15 anos. Embora não estivesse presente na ocasião em questão, ela testemunhará que, sempre que está em casa, o trem sempre apita antes de chegar ao cruzamento.

O testemunho do residente é admissível?

(A) Não, devido ao desconhecimento pessoal do morador sobre o
incidente em questão.
(B) Não, porque a evidência do hábito é limitada à conduta das pessoas,
não negócios.
(C) Sim, como evidência de uma prática rotineira.
(D) Sim, como um resumo de suas impressões sensoriais atuais.

Embora o GPT-3.5 ainda seja reprovado, o GPT-4 pode passar no exame da ordem

Para o teste, a equipe usou material de preparação da National Conference of Bar Examiners (NCBE), a organização que cria a maior parte dos Bar Exams. O GPT-3.5 foi capaz de fornecer respostas corretas às perguntas com uma variedade de prompts, mas o mais bem-sucedido foi um prompt que pedia ao modelo para classificar as 3 principais respostas.

Em média, o GPT-3.5 fica atrás dos participantes humanos em cerca de 17 por cento, mas as diferenças variam de alguns por cento a 36 por cento na categoria de Direito Penal. Em pelo menos duas categorias, Evidence e Torts, o GPT alcançou a taxa média de aprovação.

Com o método Top-3, por outro lado, a resposta correta geralmente é encontrada entre as duas primeiras respostas em quase todas as categorias. De acordo com a equipe, o modelo excede claramente a chance aleatória da linha de base de 50%.

Em todos os prompts e valores de hiperparâmetros, o GPT-3.5 superou significativamente a taxa de linha de base de adivinhação aleatória. Sem qualquer ajuste fino, atualmente atinge uma taxa de aprovação em duas categorias da Ordem dos Advogados e alcança a paridade com os examinandos humanos em uma. Sua ordem de classificação de escolhas possíveis está fortemente correlacionada com a correção em excesso de chance aleatória, confirmando sua compreensão geral do domínio jurídico.

do papel

O GPT-3.5 excede significativamente o desempenho esperado, escrevem os autores: “Apesar de milhares de horas em tarefas relacionadas nas últimas duas décadas entre os autores, não esperávamos que o GPT-3.5 demonstrasse tal proficiência em configurações de tiro zero com modelagem mínima e esforço de otimização”.

De acordo com os pesquisadores, a história do desenvolvimento de grandes modelos de linguagem sugere fortemente que tais modelos poderão passar em breve em todas as categorias da parte MBE do Bar Exam. Com base em evidências anedóticas relacionadas ao GPT-4 e Família Bloom da LAION de modelos, os pesquisadores acreditam que isso pode acontecer nos próximos 18 meses.

Em pesquisas futuras, a equipe planeja testar as seções de redação (MEE) e desempenho situacional (MPT) do Bar Exam.

O Google Brain demonstrou recentemente uma versão do Modelo de linguagem grande PaLM otimizado com dados médicos que pode responder a perguntas de leigos sobre tópicos médicos em pé de igualdade com especialistas humanos. Ele supera significativamente o nativo Palma modelo de linguagem.