Mas novos parâmetros de referência visam medir melhor a capacidade dos modelos de realizar trabalho jurídico no mundo real. O Professional Reasoning Benchmark, publicado pela ScaleAI em novembro, avaliou LLMs líderes em tarefas jurídicas e financeiras elaboradas por profissionais da área. O estudo concluiu que os modelos apresentam lacunas críticas na sua fiabilidade para adoção profissional, com o modelo com melhor desempenho a pontuar apenas 37% nos problemas jurídicos mais difíceis, o que significa que cumpriu pouco mais de um terço dos pontos possíveis nos critérios de avaliação. Os modelos frequentemente faziam julgamentos jurídicos imprecisos e, se chegavam a conclusões corretas, o faziam através de processos de raciocínio incompletos ou opacos.
“Na verdade, as ferramentas não existem para substituir basicamente o seu advogado”, diz Afra Feyza Akyurek, principal autora do artigo. “Mesmo que muitas pessoas pensem que os LLMs têm uma boa compreensão da lei, ainda estão atrasados.”
O artigo baseia-se em outros benchmarks que medem o desempenho dos modelos em trabalhos economicamente valiosos. O Índice de Produtividade de IA, publicado pela empresa de dados Mercor em setembro e atualizado em dezembro, concluiu que os modelos têm “limitações substanciais” na realização de trabalhos jurídicos. O modelo com melhor desempenho obteve 77,9% em tarefas jurídicas, o que significa que satisfez aproximadamente quatro dos cinco critérios de avaliação. Um modelo com esta pontuação pode gerar um valor económico substancial em algumas indústrias, mas em domínios onde os erros são dispendiosos, pode não ser de todo útil, observou a versão inicial do estudo.
Os benchmarks profissionais são um grande passo em frente na avaliação das capacidades reais dos LLMs, mas podem ainda não captar o que os advogados realmente fazem. “Essas questões, embora mais desafiadoras do que as dos benchmarks anteriores, ainda não refletem totalmente os tipos de questões subjetivas e extremamente desafiadoras que os advogados enfrentam na vida real”, diz Jon Choi, professor de direito da Faculdade de Direito da Universidade de Washington, que foi coautor de um estudo sobre benchmarks jurídicos em 2023.
Ao contrário da matemática ou da codificação, nas quais os LLMs fizeram progressos significativos, o raciocínio jurídico pode ser um desafio para os modelos aprenderem. A lei lida com problemas complicados do mundo real, cheios de ambiguidade e subjetividade, que muitas vezes não têm resposta certa, diz Choi. Para piorar a situação, muito do trabalho jurídico não é registrado de forma que possa ser usado para treinar os modelos, diz ele. Quando isso acontece, os documentos podem abranger centenas de páginas, espalhadas por estatutos, regulamentos e processos judiciais que existem em uma hierarquia complexa.
Mas uma limitação mais fundamental pode ser que os LLMs simplesmente não são treinados para pensar como advogados. “Os modelos de raciocínio ainda não raciocinam completamente sobre os problemas como nós, humanos, fazemos”, diz Julian Nyarko, professor de direito na Faculdade de Direito de Stanford. Os modelos podem não ter um modelo mental do mundo – a capacidade de simular um cenário e prever o que irá acontecer – e essa capacidade pode estar no centro de um raciocínio jurídico complexo, diz ele. É possível que o paradigma atual de LLMs treinados na previsão da próxima palavra nos leve apenas até certo ponto.




