Em resumo
- EVMbench testa agentes de IA em 120 vulnerabilidades de contratos inteligentes Ethereum do mundo real.
- A ferramenta avalia detecção, correção e exploração em três modos distintos.
- O GPT-5.3-Codex alcançou uma taxa de sucesso de 72,2% nos testes do modo de exploração.
A OpenAI, fabricante do ChatGPT, e a empresa de investimentos focada em criptografia Paradigm lançaram o EVMbench, uma ferramenta para ajudar a melhorar a segurança do contrato inteligente da Máquina Virtual Ethereum.
O EVMbench foi projetado para avaliar a capacidade dos agentes de IA de detectar, corrigir e explorar vulnerabilidades de alta gravidade em contratos inteligentes da Máquina Virtual Ethereum (EVM).
Os contratos inteligentes são o coração da rede Ethereum, contendo o código que alimenta tudo, desde protocolos financeiros descentralizados até lançamentos de tokens. O número semanal de contratos inteligentes implantados no Ethereum atingiu um recorde histórico de 1,7 milhão em novembro de 2025, com 669.500 implantados somente na semana passada, de acordo com o Token Terminal.
O EVMbench baseia-se em 120 vulnerabilidades selecionadas de 40 auditorias, a maioria provenientes de competições de auditoria abertas, como Code4rena, de acordo com uma postagem no blog OpenAI. Ele também inclui cenários do processo de auditoria de segurança do Tempo, o blockchain de camada 1 desenvolvido especificamente pela Stripe, focado em pagamentos de stablecoin de alto rendimento e baixo custo.
A gigante de pagamentos Stripe lançou a testnet pública para Tempo em dezembro, dizendo na época que estava sendo construída com contribuições de Visa, Shopify e OpenAI, entre outros.
O objetivo é realizar testes em códigos do mundo real economicamente significativos – especialmente à medida que os pagamentos de stablecoins baseados em IA se expandem, acrescentou a empresa.
Apresentando o EVMbench – um novo benchmark que mede quão bem os agentes de IA podem detectar, explorar e corrigir vulnerabilidades de contratos inteligentes de alta gravidade. https://t.co/op5zufgAGH
– OpenAI (@OpenAI) 18 de fevereiro de 2026
O EVMbench destina-se a avaliar modelos de IA em três modos: detectar, corrigir e explorar. Em “detectar”, os agentes auditam repositórios e são pontuados com base na lembrança de vulnerabilidades reais. No “patch”, os agentes devem eliminar vulnerabilidades sem interromper a funcionalidade pretendida. Finalmente, na fase de “exploração”, os agentes tentam ataques de drenagem de fundos de ponta a ponta em um ambiente de blockchain em área restrita, com classificação realizada por meio de repetição determinística de transações.
No modo de exploração, o GPT-5.3-Codex executado por meio do Codex CLI da OpenAI alcançou uma pontuação de 72,2%, em comparação com 31,9% do GPT-5, lançado seis meses antes. O desempenho foi mais fraco nas tarefas de detecção e correção, nas quais os agentes às vezes falhavam na auditoria exaustiva ou tinham dificuldade para preservar a funcionalidade completa do contrato.
Os pesquisadores dos fabricantes do ChatGPT alertaram que o EVMbench não captura totalmente a complexidade da segurança do mundo real. Ainda assim, acrescentaram que medir o desempenho da IA em ambientes economicamente relevantes é fundamental, à medida que os modelos se tornam ferramentas poderosas tanto para atacantes como para defensores.
Vitalik Buterin, cofundador da OpenAI e Ethereum de Sam Altman, já esteve em desacordo sobre o ritmo de desenvolvimento da IA.
Em janeiro de 2025, Altman disse que sua empresa estava “confiante de que sabemos como construir AGI como tradicionalmente a entendemos”. Mas Buterin defendeu que os sistemas de IA deveriam incluir uma capacidade de “pausa suave” que poderia restringir temporariamente as operações de IA em escala industrial caso surgissem sinais de alerta.
Resumo Diário Boletim informativo
Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.
Fontedecrypt




