Em resumo
- O Prophet Arena testa os modelos de IA, fazendo com que eles prevejam eventos não resolvidos no mundo real, com o GPT-5 atualmente liderando o ranking.
- Os modelos de IA mostram “personalidades” de previsão distintos e muitas vezes divergem do consenso do mercado, às vezes gerando altos retornos.
- Os primeiros resultados sugerem que a IA pode prever com a mesma precisão que os mercados de previsão, potencialmente transformando a tomada de decisão institucional.
Um novo benchmark de inteligência artificial lançado em agosto mostra que os modelos de IA podem prever eventos do mundo real com a mesma precisão que os mercados de previsão-e às vezes melhores, de acordo com pesquisadores do Sigma Lab da Universidade de Chicago.
A Profeta Arena avalia os sistemas de IA, fazendo com que eles prevejam os resultados de eventos ao vivo e não resolvidos extraídos de plataformas como Kalshi e Polymarket – distribuindo os resultados das eleições a partidas esportivas e indicadores econômicos. Diferentemente dos benchmarks tradicionais que testam modelos de dados históricos com respostas conhecidas, o Prophet Arena testa a IA contra previsões futuras.
“Ao ancorar avaliações em eventos não resolvidos e do mundo real, a Profeta Arena garante um campo de jogo nivelado. Não há vantagem pré-treinamento, nenhum truque secreto de ajuste fino, sem vazamento de amostras de teste”, disse a equipe da Arena Profeta no post oficial do blog da referência.
O benchmark diz que está tentando abordar uma questão fundamental sobre a inteligência artificial: “Os sistemas de IA podem prever de maneira confiável o futuro conectando os pontos nas informações existentes do mundo real?”
Os primeiros resultados sugerem que eles podem. Atualmente, o GPT-5 lidera a tabela de classificação com uma pontuação de Brier de 82,21%. Enquanto isso, o modelo O3-mini do OpenAI emergiu como campeão de lucro, gerando os retornos médios mais altos quando suas previsões são traduzidas em apostas simuladas (geralmente um oprimido com chances suficientes para vencer podem fornecer muito mais retorno, dadas as condições adequadas).
O Deepseek R1 parece ser a IA contrária do grupo, frequentemente fazendo previsões que divergem acentuadamente de outros modelos e consenso de mercado, portanto, provavelmente não é o melhor modelo para confiar se você quiser ganhar um dinheiro rápido nos inúmeros mercados.
A plataforma revela “personalidades” distintas entre os modelos de IA ao enfrentar informações idênticas. Em um exemplo, ao prever se o regulamento da IA se tornaria lei federal antes de 2026, o mercado atribuiu apenas uma probabilidade de 25%. Mas os modelos divergiram descontroladamente: Qwen 3 previu 75%, o GPT-4.1 estimou 60%, enquanto o lhama 4 Maverick permaneceu conservador em 35%.
Em outro caso, a O3-mini ganhou um retorno simulado de US $ 9 em uma aposta de US $ 1 ao prever corretamente o Toronto FC vencer o San Diego FC em uma partida de futebol da Major League. O modelo deu a Toronto uma chance de vencer 30%, enquanto o mercado o preço de apenas 11%. Toronto venceu.
“(Profeta Arena) testa a capacidade de previsão dos modelos, uma alta forma de inteligência que exige uma ampla gama de capacidades, incluindo a compreensão de informações e fontes de notícias existentes, o raciocínio sob incerteza e fazendo previsões sensíveis ao tempo sobre o desenvolvimento de eventos”, escreveram os pesquisadores.
A arena do profeta também permite a colaboração humana-AI. Os usuários podem fornecer notícias e contexto adicionais para ver como as previsões mudam, enquanto os modelos de IA fornecem racionamentos detalhados para suas previsões.
À medida que os próprios mercados de previsão integram a IA-Kalshi fez uma parceria recentemente com a GROK de Elon Musk, enquanto o polymarket gera resumos de mercado movidos a IA-a Prophet Arena oferece a primeira comparação sistemática da previsão de máquinas contra o julgamento humano coletivo.
E, se eles forem muito bons nisso, as máquinas podem ser puramente factuais, sem sentimentos ou emoções desempenhando um papel nas decisões. Eles poderiam coincidir ou exceder a sabedoria das multidões, mudando a maneira como as instituições abordam a avaliação de riscos, as decisões de investimento e o planejamento estratégico.
A plataforma Profeta Arena continua atualizando diariamente à medida que os eventos resolvem, fornecendo uma imagem em evolução sobre se a inteligência artificial pode realmente prever o futuro conectando os pontos de hoje.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt