A OpenAI introduziu um novo benchmark de segurança de contrato inteligente à medida que os agentes de IA ganham habilidades de codificação mais fortes no setor de criptografia. Juntamente com a Paradigm, a OpenAI disse que o benchmark, chamado EVMbench, testa como os sistemas de IA detectam, corrigem e exploram bugs graves de contrato Ethereum. O seu esforço responde ao crescente risco financeiro, uma vez que os contratos inteligentes garantem rotineiramente mais de 100 mil milhões de dólares em ativos criptográficos de código aberto.
OpenAI Smart Contract Benchmark visa vulnerabilidades reais de auditoria
Em seu lançamento, OpenAI disse O EVMbench baseia-se em 120 vulnerabilidades selecionadas coletadas de 40 auditorias profissionais de contratos inteligentes. Notavelmente, a maioria dos problemas veio de concursos abertos de auditoria, incluindo o Code4rena. A OpenAI disse que o benchmark também inclui cenários de vulnerabilidade vinculados ao trabalho de auditoria de segurança para o blockchain Tempo.
Tempo é descrito como um Rede de camada 1 projetado para pagamentos de stablecoin de alto rendimento e baixo custo. Por causa disso, esses cenários estendem o benchmark para um código de contrato focado em pagamentos. A empresa também disse que espera que a atividade de pagamento de stablecoin baseada em agentes cresça.
Para construir os ambientes de benchmark, a OpenAI disse que adaptou testes de prova de conceito de exploração existentes e scripts de implantação, quando disponíveis. No entanto, disse que os engenheiros escreveram manualmente os componentes ausentes quando não existiam scripts. A OpenAI acrescentou que garantiu que as tarefas de patch permanecessem exploráveis, embora ainda corrigíveis, sem interromper a compilação.
Modos de detecção, correção e exploração testam agentes de IA sob pressão
OpenAI disse que EVMbench avalia inteligência artificial agentes em três modos. Isso é detectar, corrigir e explorar. No modo de detecção, os agentes auditam repositórios de contratos inteligentes e recebem pontuação no recall de vulnerabilidades confirmadas e recompensas de auditoria. No modo patch, os agentes devem modificar os contratos vulneráveis, mantendo intacta a funcionalidade pretendida.
O modo de exploração, no entanto, concentra-se em ataques completos de drenagem de fundos em um ambiente sandbox blockchain. A empresa disse que os avaliadores verificam os resultados usando a repetição das transações e verificações na cadeia. Para apoiar a avaliação reproduzível, a empresa disse que desenvolveu um equipamento baseado em Rust para implantar contratos e reproduzir transações de forma determinística.
Notavelmente, as tarefas de exploração são executadas em um ambiente Anvil local isolado, em vez de redes criptográficas ativas. Ele também disse que as vulnerabilidades usadas no benchmark são históricas e documentadas publicamente. A OpenAI acrescentou que o chicote restringe métodos RPC inseguros para limitar o abuso.
Nos testes de exploração, a OpenAI disse que o GPT-5.3-Codex executado via Codex CLI obteve pontuação de 72,2%. No entanto, disse que o modelo GPT-5 anterior obteve 31,9%, apesar de ter sido lançado pouco mais de seis meses antes. A OpenAI também observou que o recall de detecção e o sucesso do patch permanecem abaixo da cobertura total.
OpenAI adiciona novos talentos com contratação de agentes
Embora a OpenAI tenha colocado o EVMbench à vista do público, ela também expandiu sua equipe de desenvolvimento de agentes. Notavelmente, eles contrataram Peter Steinberger, fundador do projeto viral de agente de IA de código aberto OpenClaw, anteriormente conhecido como Clawdbot. Sam Altman confirmou no X que Steinberger se juntará à OpenAI para liderar o trabalho na “próxima geração de agentes pessoais”.
Enquanto isso, Altman disse que o OpenClaw fará a transição para um projeto de modelo básico apoiado pela OpenAI. O projeto de código aberto continuará sob essa estrutura, de acordo com o anúncio. A contratação atraiu grande atenção à medida que a OpenAI aumenta seu foco em agentes de IA autônomos e pessoais.
Fontecoingape



