Decrypt logoImage created by Decrypt using AI

Em resumo

  • Os modelos Frontier AI explodiram as apostas nos mercados de futebol do mundo real.
  • Eles conheciam a estratégia certa – mas não conseguiram executá-la.
  • Um modelo simples da década de 1990 foi capaz de superar a maioria deles.

O Raciocínio Geral acaba de dar à IA de fronteira seu pior boletim até agora. Oito modelos top, incluindo Claude, Grok, Gemini e GPT-5.4, receberam, cada um, um saldo virtual e foram solicitados a construir uma estratégia de apostas de aprendizado de máquina durante toda a temporada 2023-24 da Premier League inglesa.

Cada um perdeu dinheiro. Vários faliram completamente.

O benchmark chama-se KellyBench, em homenagem ao critério Kelly, uma fórmula de 1956 que informa exatamente quanto apostar quando você tem vantagem sobre o mercado. Cada modelo poderia recitar a fórmula de Kelly. Nenhum deles poderia realmente usá-lo.

Grok 4.20 do xAI falhou em todas as três corridas, indo à falência em uma, perdendo o meio da temporada nas outras duas. O Gemini Flash do Google perdeu duas das três corridas depois de fazer uma única aposta de cerca de £ 273.000 em uma vantagem histórica de taxa de vitória de três pontos percentuais – e perdê-la. Claude Opus 4.6, o melhor modelo da Anthropic, perdeu em média 11% e de alguma forma saiu parecendo o adulto responsável na sala.

Na verdade, o artigo de investigação menciona que o antigo Dixon-Coles do final da década de 1990 superou a maioria dos modelos de fronteira avaliados – terminando à frente de seis em oito, mesmo com dados limitados.

“Dixon-Coles é uma linha de base desatualizada dos anos 2000 que não utiliza todos os dados disponíveis nem leva em conta a não estacionariedade de uma forma baseada em princípios”, observam os pesquisadores. “Portanto, é ainda mais surpreendente que muitos modelos de ponta, como o Gemini 3.1 Pro, não consigam superá-lo ou igualá-lo no KellyBench.

Isso importa além do futebol. No início deste ano, os benchmarks de IA mostraram que Claude poderia dominar as simulações de negócios através da fixação de preços, acordos de cartel e fraude estratégica.

Esse processo de tomada de decisão envolveu competição estática, adversários limitados, pontuação clara e assim por diante. O KellyBench é o oposto: 120 jornadas, dados em constante mudança, um mercado que fica mais inteligente a cada semana e equipes promovidas com zero recordes históricos.

Os pesquisadores chamam o problema central de “lacuna conhecimento-ação”. É exatamente o que parece.

As decisões de negócios baseiam-se principalmente em condições fixas, enquanto as apostas desportivas são um mercado mais fluido e mutável, o que dificulta estes modelos. “O KellyBench exige que os agentes mantenham intenções coerentes em potencialmente milhares de decisões sequenciais, monitorizem as consequências dessas decisões e fechem o ciclo entre a observação e a ação”, argumentam os investigadores.

Ainda não chegamos lá, obviamente.

Os modelos conseguiram articular a estratégia certa, diagnosticar quando algo estava quebrado e identificar a causa de suas perdas, mas depois não conseguiram verificar se seu código realmente implementou o planejado, não perceberam quando a execução divergia da intenção e não agiram de acordo com suas próprias descobertas.

O GLM-5 escreveu três documentos de autocrítica separados durante sua execução. Cada um identificou corretamente que a taxa de empate codificada de 25% e a superestimação da vantagem em casa estavam destruindo seus retornos. A certa altura, com a sua banca em torno de £44.200, notou que a sua taxa prevista de 40% de vitórias em casa estava apenas a atingir os 30% na realidade. Nunca mudou o código. Continuou apostando da mesma forma até que o dinheiro acabou.

Kimi K2.5 fez algo indiscutivelmente mais impressionante e mais trágico. Ele escreveu uma função de piquetagem Kelly fracionária matematicamente correta – a fórmula certa, devidamente estruturada. Então nunca ligou. Um bug de formatação fez com que o modelo enviasse um comando bash quebrado cerca de 50 vezes seguidas. Seu raciocínio apontou o problema. Em seguida, ele enviou o comando quebrado idêntico novamente. Uma aposta acidental de £ 114.000 – 98% de seu saldo restante – em uma partida entre Burnley e Luton encerrou o trabalho.

GPT-5.4 foi o mais metódico. Gastou 160 chamadas de ferramentas construindo modelos antes de fazer uma única aposta, depois calculou que sua perda logarítmica (0,974) era pouco pior que a do mercado (0,971) e concluiu que não tinha vantagem. Passou o resto da temporada fazendo apostas de um centavo para preservar o capital. Raciocínio sólido.

O modelo da OpenAI perdeu em média 13,6%. Só uma semente custa cerca de US$ 2.012 para ser cultivada.

Ross Taylor, CEO da General Reasoning e ex-pesquisador da Meta AI, disse ao Financial Times que a maioria dos benchmarks de IA operam em “ambientes muito estáticos” que têm pouca semelhança com o mundo real. “Há muito entusiasmo em relação à automação da IA, mas não houve muitas tentativas de avaliar a IA em ambientes do mundo real a longo prazo”, disse ele.

A equipe de raciocínio geral não respondeu imediatamente a um pedido de comentários de Descriptografar.

Para medir a qualidade da estratégia além dos retornos brutos, os pesquisadores construíram uma rubrica de sofisticação de 44 pontos com especialistas quantitativos em fundos de apostas – abrangendo desenvolvimento de recursos, dimensionamento de apostas, tratamento não estacionário e execução. Claude Opus 4,6 obteve a pontuação mais alta, 32,6%. Menos de um terço dos pontos disponíveis. No melhor modelo.

Pontuações mais altas de sofisticação previram significativamente taxas de falência mais baixas (p = 0,008) e correlacionaram-se com melhores retornos gerais. Os modelos não estão falhando porque o mercado é imbatível. Eles estão falhando porque não estão usando o que têm.

Isso se encaixa em um padrão. Uma pesquisa publicada no ano passado descobriu que os modelos de IA desenvolvem algo semelhante ao vício do jogo quando solicitados a maximizar as recompensas – indo à falência em até 48% das vezes em testes simulados de caça-níqueis. Uma competição separada de negociação de criptografia com dinheiro real encontrou os mesmos problemas de confiabilidade durante longos períodos.

O modelo de melhor desempenho teve uma média de saldo final de £ 89.035 – uma perda líquida de £ 10.965 em uma aposta inicial normalizada de £ 100.000. Aumento de gradiente, apostas fracionárias de Kelly, meses de futebol da Premier League, desempenho de última geração… tudo apenas para obter rekt.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *