Em resumo
- Os professores de direito preferiram respostas sobre direito contratual geradas por IA em vez daquelas escritas por colegas professores cerca de 75% das vezes.
- As respostas de IA foram sinalizadas como prejudiciais com menos frequência do que as respostas escritas por professores.
- Os pesquisadores disseram que os resultados mostram que grandes modelos de linguagem podem se alinhar aos padrões profissionais.
Os professores de direito preferiram respostas geradas por inteligência artificial a respostas escritas por colegas professores, de acordo com um estudo recente liderado pela Universidade de Stanford que examinou o desempenho de grandes modelos de linguagem em tarefas de raciocínio jurídico.
No estudo, 16 professores de 14 faculdades de direito dos EUA – incluindo Stanford, Yale, Universidade de Nova York, Universidade de Chicago, Georgetown, UCLA e Universidade da Virgínia – criaram 40 questões de direito contratual cobrindo doutrina jurídica, jurisprudência, hipóteses e questões políticas. Os pesquisadores consideraram isso uma forma ideal de testar as capacidades da IA moderna.
“Grandes modelos de linguagem (LLMs) são cada vez mais promovidos como tutores educacionais, mas a maioria das avaliações se concentra em domínios com uma única verdade fundamental”, escreveram os pesquisadores. “Muitas disciplinas, no entanto, dependem do julgamento: raciocínio, ponderação da ambiguidade e obtenção de conclusões defensáveis. A lei proporciona um teste rigoroso.”
Em 2.918 comparações cegas, os professores selecionaram a resposta que prefeririam dar ao aluno. O Gemini 2.5 Pro do Google venceu 75,92% de seus confrontos contra instrutores humanos, enquanto o NotebookLM da gigante da tecnologia venceu 74,75% das vezes, dando aos resultados gerados por IA a vantagem sobre os humanos em cerca de três quartos das respostas.
Segundo os pesquisadores, para determinar se os resultados refletiam um consenso profissional mais amplo, os pesquisadores analisaram a frequência com que os professores concordavam ao avaliar os mesmos pares de respostas.
“A concordância observada excedeu o nível esperado se os julgamentos fossem inteiramente idiossincráticos, indicando que o sucesso dos LLM reflecte o alinhamento com critérios disciplinares comuns”, escreveram.
O estudo descobriu que os modelos de IA também superaram os instrutores humanos em várias categorias, incluindo questões de recall relacionadas a casos, códigos ou doutrinas, hipóteses e discussões políticas.
“Para investigar se alguma vantagem do LLM pode ser impulsionada pelo estilo de escrita superficial em vez do conteúdo substantivo, também projetamos um conjunto de recursos léxico-sintáticos – comprimento da resposta, organização estrutural, nuance de raciocínio, âncoras legais, tom de confiança, clareza e suporte pedagógico – e testamos quanto do padrão de preferência eles poderiam explicar”, disse o estudo.
As respostas geradas por IA também foram sinalizadas como prejudiciais com menos frequência do que aquelas escritas por professores, com Gemini registrando uma taxa de nocividade de 3,41% e NotebookLM 3,64%, em comparação com 12,06% para instrutores humanos. Em uma análise separada de modelos adicionais, Claude Opus 4.7 da Anthropic ficou em primeiro lugar, seguido pelo ChatGPT 5.4 da OpenAI e Gemini 2.5 Pro, enquanto cada modelo de IA avaliou desempenho superior ao dos instrutores humanos, em média.
Os investigadores alertaram que o estudo não mediu se as respostas correspondiam às preferências individuais de ensino de cada professor, deixando aberta a possibilidade de que as respostas geradas pela IA fossem vistas como geralmente aceitáveis, em vez de adaptadas à abordagem de qualquer instrutor.
“Embora as respostas do LLM sejam geralmente preferidas às dos instrutores humanos, nosso ambiente de avaliação não nos permite medir diretamente até que ponto as preferências do instrutor são satisfeitas”, afirmou o estudo. “É pelo menos teoricamente possível que os LLMs, embora geralmente forneçam respostas mais fortes, ainda gerem respostas que são meramente vistas como “suficientemente boas”.
O estudo surge num momento em que tribunais, escritórios de advocacia e faculdades de direito lutam cada vez mais sobre como a inteligência artificial deve ser usada na profissão jurídica.
Em março, o Tribunal Superior de Los Angeles começou a testar ferramentas de IA para ajudar os juízes a gerir o crescente número de casos, enquanto as faculdades de direito estão a adicionar programas de formação em IA.
“Os benefícios potenciais dessas novas tecnologias como um multiplicador de força na prática da lei simplesmente não podem ser ignorados”, disse anteriormente o reitor da Faculdade de Direito do Mississippi, John P. Anderson. Descriptografar. “Quer nossos alunos planejem ser litigantes ou advogados transacionais, seus futuros empregadores esperarão familiaridade com essas ferramentas de IA. Queremos que as empresas que contratam nossos alunos tenham certeza de que cada graduado em Direito da MC é competente em tecnologias de IA.
Ao mesmo tempo, porém, os escritórios de advocacia continuam a enfrentar casos prejudicados por alucinações e outros erros gerados pela IA. Em abril, o escritório de advocacia Sullivan & Cromwell admitiu em um tribunal de falências dos EUA que um processo recente em um caso de grande repercussão continha citações falsas geradas por IA.
Resumo Diário Boletim informativo
Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.
Fontedecrypt



