A OpenAI introduziu um novo sistema chamado EVMbench, projetado para medir quão bem os agentes de inteligência artificial podem encontrar e corrigir falhas de segurança em contratos criptográficos inteligentes.

Resumo

  • A OpenAI introduziu o EVMbench, uma nova estrutura projetada para medir quão bem os agentes de IA podem detectar, corrigir e explorar vulnerabilidades de contratos inteligentes.
  • Desenvolvido com a Paradigm, o benchmark baseia-se em dados de auditoria reais e concentra-se em cenários de segurança práticos e de alto risco.
  • Os primeiros resultados mostram um forte progresso nas tarefas de exploração, enquanto a detecção e a correção ainda são desafiadoras.

A empresa anunciou no dia 18 de fevereiro que desenvolveu o EVMbench em parceria com a Paradigm. O benchmark se concentra em contratos construídos para a Máquina Virtual Ethereum e tem como objetivo testar o desempenho dos sistemas de IA em ambientes financeiros reais.

A OpenAI disse que os contratos inteligentes atualmente protegem mais de US$ 100 bilhões em ativos criptográficos de código aberto, tornando os testes de segurança cada vez mais importantes à medida que as ferramentas de IA se tornam mais capazes.

Testando como a IA lida com riscos reais de segurança

O EVMbench avalia agentes de IA em três tarefas principais: detecção de vulnerabilidades, correção de códigos defeituosos e realização de ataques simulados. O sistema é construído usando 120 questões de alto risco extraídas de 40 auditorias de segurança anteriores, muitas delas provenientes de concursos públicos de auditoria.

Cenários adicionais foram retirados de análises do blockchain Tempo, uma rede focada em pagamentos projetada para uso de stablecoin. Esses casos foram adicionados para refletir como os contratos inteligentes são usados ​​em aplicações financeiras.

Para construir o ambiente de teste, a OpenAI adaptou scripts de exploração existentes e criou novos quando necessário. Todos os testes de exploração são executados em sistemas isolados e não em redes ativas, e apenas vulnerabilidades divulgadas anteriormente são incluídas.

No modo de detecção, os agentes revisam o código do contrato e tentam identificar falhas de segurança conhecidas. No modo patch, eles devem corrigir essas falhas sem quebrar o software. No modo de exploração, os agentes tentam drenar fundos de contratos vulneráveis ​​num ambiente controlado.

Resultados iniciais e impacto na indústria

A OpenAI disse que uma estrutura de teste personalizada foi desenvolvida para garantir que os resultados possam ser reproduzidos e verificados.

A empresa testou vários modelos avançados usando o EVMbench. No modo de exploração, o GPT-5.3-Codex alcançou uma pontuação de 72,2%, em comparação com 31,9% do GPT-5, lançado seis meses antes. As pontuações de detecção e correção foram mais baixas, mostrando que muitas vulnerabilidades ainda são difíceis de serem tratadas pelos sistemas de IA.

Os pesquisadores observaram que os agentes tiveram melhor desempenho quando os objetivos eram claros, como a drenagem de fundos. O desempenho caiu quando as tarefas exigiam análises mais profundas, como a revisão de grandes bases de código ou a correção de bugs sutis.

A OpenAI reconheceu que o EVMbench não reflete totalmente as condições do mundo real. Muitos grandes projetos de criptografia passam por revisões mais extensas do que aquelas incluídas no conjunto de dados. Alguns ataques baseados em temporização e em múltiplas cadeias também estão fora do escopo do sistema.

A empresa disse que o benchmark se destina a apoiar o uso defensivo de IA na segurança cibernética. À medida que as ferramentas de IA se tornam mais poderosas, elas poderão ser usadas tanto por invasores quanto por auditores. Medir as suas capacidades é visto como uma forma de reduzir o risco e encorajar uma implementação responsável.

Juntamente com o lançamento, a OpenAI disse que está expandindo os programas de segurança e investindo US$ 10 milhões em créditos de API para apoiar o código aberto e a proteção da infraestrutura. Todas as ferramentas e conjuntos de dados do EVMbench foram tornados públicos para apoiar futuras pesquisas.

Fontecrypto.news

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *