Uma nova análise académica sugere que os benchmarks de IA são falhos, podendo levar uma empresa a tomar decisões de alto risco sobre dados “enganosos”.
Os líderes empresariais estão a comprometer orçamentos de oito ou nove dígitos para programas de IA generativos. Estas decisões de aquisição e desenvolvimento baseiam-se frequentemente em tabelas de classificação públicas e benchmarks para comparar as capacidades dos modelos.
Um estudo em grande escala, ‘Medindo o que importa: construa validade em benchmarks de modelos de linguagem grande’, analisou 445 benchmarks de LLM separados das principais conferências de IA. Uma equipe de 29 revisores especialistas descobriu que “quase todos os artigos apresentam pontos fracos em pelo menos uma área”, minando as afirmações que fazem sobre o desempenho do modelo.
Para CTOs e Chief Data Officers, atinge o cerne da governança da IA e da estratégia de investimento. Se um benchmark que pretende medir a “segurança” ou a “robustez” não capturar realmente essas qualidades, uma organização poderá implementar um modelo que a exponha a sérios riscos financeiros e de reputação.
O problema da ‘validade de construção’
Os pesquisadores se concentraram em um princípio científico fundamental conhecido como validade de construto. Em termos simples, este é o grau em que um teste mede o conceito abstrato que afirma medir.
Por exemplo, embora a “inteligência” não possa ser medida diretamente, os testes são criados para servir como indicadores mensuráveis. O artigo observa que se um benchmark tiver baixa validade de construto, “então uma pontuação alta pode ser irrelevante ou até enganosa”.
Este problema é generalizado na avaliação de IA. O estudo concluiu que os conceitos-chave são frequentemente “mal definidos ou operacionalizados”. Isto pode levar a “afirmações científicas mal fundamentadas, investigação mal direcionada e implicações políticas que não são fundamentadas em evidências robustas”.
Quando os fornecedores competem por contratos empresariais, destacando as suas melhores pontuações em benchmarks, os líderes confiam efetivamente que essas pontuações são um indicador fiável do desempenho empresarial no mundo real. Esta nova pesquisa sugere que a confiança pode ser equivocada.
Onde os benchmarks de IA empresarial estão falhando
A revisão identificou falhas sistémicas em todos os níveis, desde a forma como os índices de referência são concebidos até à forma como os seus resultados são comunicados.
Definições vagas ou contestadas: Você não pode medir o que não pode definir. O estudo concluiu que mesmo quando foram fornecidas definições para um fenómeno, 47,8 por cento foram “contestadas”, abordando conceitos com “muitas definições possíveis ou nenhuma definição clara”.
O documento utiliza a “inocuidade” – um objectivo fundamental no alinhamento da segurança empresarial – como exemplo de um fenómeno que muitas vezes carece de uma definição clara e consensual. Se dois fornecedores pontuarem de forma diferente em um benchmark de “inocuidade”, isso poderá refletir apenas duas definições diferentes e arbitrárias do termo, e não uma diferença genuína na segurança do modelo.
Falta de rigor estatístico: Talvez o mais alarmante para as organizações orientadas por dados seja o facto de a análise ter concluído que apenas 16% dos 445 benchmarks utilizaram estimativas de incerteza ou testes estatísticos para comparar os resultados dos modelos.
Sem análise estatística, é impossível saber se uma vantagem de 2% do Modelo A em relação ao Modelo B é uma diferença de capacidade genuína ou um simples acaso aleatório. As decisões empresariais estão a ser guiadas por números que não passariam numa análise científica básica ou de inteligência empresarial.
Contaminação e memorização de dados: Muitos benchmarks, especialmente aqueles de raciocínio (como o amplamente utilizado GSM8K), são prejudicados quando suas perguntas e respostas aparecem nos dados de pré-treinamento do modelo.
Quando isso acontece, o modelo não raciocina para encontrar a resposta; é simplesmente memorizá-lo. Uma pontuação alta pode indicar uma boa memória, e não a capacidade de raciocínio avançada que uma empresa realmente precisa para uma tarefa complexa. O documento alerta que isso “prejudica a validade dos resultados” e recomenda incluir verificações de contaminação diretamente no benchmark.
Conjuntos de dados não representativos: O estudo descobriu que 27% dos benchmarks usaram “amostragem de conveniência”, como a reutilização de dados de benchmarks existentes ou exames humanos. Estes dados muitas vezes não são representativos do fenómeno do mundo real.
Por exemplo, os autores observam que reutilizar questões de um “exame sem calculadora” significa que os problemas usam números escolhidos para serem fáceis de aritmética básica. Um modelo pode ter uma boa pontuação neste teste, mas esta pontuação “não preveria o desempenho em números maiores, onde os LLMs têm dificuldades”. Isto cria um ponto cego crítico, escondendo uma fraqueza conhecida do modelo.
Das métricas públicas à validação interna
Para os líderes empresariais, o estudo serve como um forte alerta: os benchmarks públicos de IA não substituem a avaliação interna e específica de domínio. Uma pontuação alta em um placar público não é garantia de adequação a um propósito comercial específico.
Isabella Grandi, Diretora de Estratégia e Governança de Dados da NTT DATA UK&I, comentou: “Um único benchmark pode não ser o caminho certo para capturar a complexidade dos sistemas de IA, e esperar que isso aconteça corre o risco de reduzir o progresso a um jogo de números em vez de uma medida de responsabilidade no mundo real. O que mais importa é a avaliação consistente com base em princípios claros que garantam que a tecnologia sirva as pessoas e também o progresso.
“Uma boa metodologia – conforme estabelecido pela ISO/IEC 42001:2023 – reflete esse equilíbrio por meio de cinco princípios fundamentais: responsabilidade, justiça, transparência, segurança e reparação. A responsabilidade estabelece propriedade e responsabilidade por qualquer sistema de IA implantado. resultados quando necessário.
“O verdadeiro progresso na IA depende de uma colaboração que reúna a visão do governo, a curiosidade do meio académico e o impulso prático da indústria. Quando as parcerias são sustentadas pelo diálogo aberto e os padrões partilhados se consolidam, cria-se a transparência necessária para que as pessoas incutam confiança nos sistemas de IA. A inovação responsável dependerá sempre da cooperação que fortalece a supervisão, mantendo viva a ambição.”
As oito recomendações do documento fornecem uma lista de verificação prática para qualquer empresa que pretenda construir os seus próprios benchmarks e avaliações internas de IA, alinhando-se com a abordagem baseada em princípios.
- Defina seu fenômeno: Antes de testar modelos, as organizações devem primeiro criar uma “definição precisa e operacional para o fenómeno que está a ser medido”. O que significa uma resposta “útil” no contexto do seu atendimento ao cliente? O que significa ‘preciso’ para seus relatórios financeiros?
- Crie um conjunto de dados representativo: O benchmark mais valioso é aquele construído a partir de seus próprios dados. O artigo incentiva os desenvolvedores a “construir um conjunto de dados representativo para a tarefa”. Isso significa usar itens de tarefas que reflitam os cenários, formatos e desafios do mundo real que seus funcionários e clientes enfrentam.
- Realizar análise de erros: Vá além da pontuação final. O relatório recomenda que as equipes “conduzam uma análise qualitativa e quantitativa dos modos de falha comuns”. Analisar por que um modelo falha é mais instrutivo do que apenas saber sua pontuação. Se todos os seus fracassos se concentrarem em temas obscuros e de baixa prioridade, poderá ser aceitável; se falhar nos casos de uso mais comuns e de alto valor, essa pontuação única se tornará irrelevante.
- Justifique a validade: Finalmente, as equipas devem “justificar a relevância do benchmark para o fenómeno com aplicações do mundo real”. Cada avaliação deve vir acompanhada de uma justificativa clara que explique por que esse teste específico é uma proxy válida para o valor do negócio.
A corrida para implementar IA generativa está a levar as organizações a avançar mais rapidamente do que os seus quadros de governação conseguem acompanhar. Este relatório mostra que as próprias ferramentas utilizadas para medir o progresso são muitas vezes falhas. O único caminho confiável a seguir é parar de confiar em benchmarks genéricos de IA e começar a “medir o que é importante” para sua própria empresa.
Veja também: OpenAI distribui aposta de US$ 600 bilhões em IA na nuvem entre AWS, Oracle e Microsoft
Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes, incluindo a Cyber Security Expo. Clique aqui para obter mais informações.
AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.
Fontesartificialintelligence



