reproducing Mythos' results with mainstream AI.Image: Vidoc SecurityAI models. Image: Decrypt/Shutterstock

Em resumo

  • Pesquisadores mostram que explorações de estilo antrópico podem ser reproduzidas com IA pública, afirma o relatório.
  • Estudo sugere que a descoberta de vulnerabilidades já é barata e amplamente acessível.
  • As descobertas indicam que as capacidades cibernéticas da IA ​​podem estar a espalhar-se mais rapidamente do que o esperado.

Quando a Anthropic revelou Claude Mythos no início deste mês, ela trancou o modelo atrás de uma coalizão examinada de gigantes da tecnologia e enquadrou-o como algo muito perigoso para o público. O secretário do Tesouro, Scott Bessent, e o presidente do Fed, Jerome Powell, convocaram uma reunião de emergência com os CEOs de Wall Street. A palavra “vulnpocalipse” ressurgiu nos círculos de segurança.

E agora uma equipe de pesquisadores complicou ainda mais essa narrativa.

A Vidoc Security pegou os exemplos públicos corrigidos da Anthropic e tentou reproduzi-los usando GPT-5.4 e Claude Opus 4.6 dentro de um agente de codificação de código aberto chamado opencode. Nenhum convite do Glasswing. Sem acesso privado à API. Nenhuma pilha interna antrópica.

“Replicamos as descobertas do Mythos em código aberto usando modelos públicos, não a pilha privada da Anthropic”, escreveu Dawid Moczadło, um dos pesquisadores envolvidos no experimento, no X após publicar os resultados. “A melhor maneira de ler o lançamento do Mythos da Anthropic não é ‘um laboratório tem um modelo mágico’. É: a economia da descoberta de vulnerabilidades está mudando.”

Os casos visados ​​foram os mesmos destacados pela Anthropic em seus materiais públicos: um protocolo de compartilhamento de arquivos de servidor, a pilha de rede de um sistema operacional focado em segurança, o software de processamento de vídeo incorporado em quase todas as plataformas de mídia e duas bibliotecas criptográficas usadas para verificar identidades digitais na web.

Tanto o GPT-5.4 quanto o Claude Opus 4.6 reproduziram dois casos de bug em todas as três execuções cada. Claude Opus 4.6 também redescobriu de forma independente um bug no OpenBSD três vezes seguidas, enquanto o GPT-5.4 marcou zero nessa. Alguns bugs (um envolvendo a biblioteca FFmpeg para executar vídeos e outro envolvendo o processamento de assinaturas digitais com wolfSSL) voltaram parcialmente – o que significa que os modelos encontraram a superfície de código correta, mas não acertaram a causa raiz precisa.

Imagem: Vidoc Segurança

Cada varredura ficou abaixo de US$ 30 por arquivo, o que significa que os pesquisadores conseguiram encontrar as mesmas vulnerabilidades do Anthropic gastando menos de US$ 30 para fazer isso.

“Os modelos de IA já são bons o suficiente para restringir o espaço de pesquisa, revelar pistas reais e, às vezes, recuperar a causa raiz completa em código testado em batalha”, disse Moczadło no X.

O fluxo de trabalho que eles usaram não era um prompt único. Ele refletia o que o próprio Anthropic descreveu publicamente: dar ao modelo uma base de código, deixá-lo explorar, paralelizar tentativas, filtrar sinais. A equipe Vidoc construiu a mesma arquitetura com ferramentas abertas. Um agente de planejamento dividiu cada arquivo em partes. Um agente de detecção separado foi executado em cada bloco e, em seguida, inspecionou outros arquivos no repositório para confirmar ou descartar descobertas.

Os intervalos de linha dentro de cada prompt de detecção – por exemplo, “foco nas linhas 1158-1215” – não foram escolhidos manualmente pelos pesquisadores. Eles foram resultados da etapa de planejamento anterior. A postagem do blog deixa isso explícito: “Queremos ser explícitos sobre isso porque a estratégia de agrupamento molda o que cada agente de detecção vê e não queremos apresentar o fluxo de trabalho como mais curado manualmente do que era”.

O estudo não afirma que os modelos públicos correspondam ao Mythos em tudo. O modelo da Anthropic foi além de apenas detectar o bug do FreeBSD – ele construiu um plano de ataque funcional, descobrindo como um invasor poderia encadear fragmentos de código em vários pacotes de rede para obter o controle total da máquina remotamente. Os modelos da Vidoc encontraram a falha. Eles não construíram a arma. É aí que reside a verdadeira lacuna: não em encontrar o buraco, mas em saber exatamente como passar por ele.

Mas o argumento de Moczadło não é realmente que os modelos públicos sejam igualmente poderosos. É que a parte cara do fluxo de trabalho agora está disponível para qualquer pessoa com uma chave de API: “O fosso está passando do acesso ao modelo para a validação: encontrar sinais de vulnerabilidade está ficando mais barato; transformá-lo em um trabalho de segurança confiável ainda é difícil”.

O próprio relatório de segurança da Anthropic reconheceu que o Cybench, o benchmark usado para medir se um modelo representa um risco cibernético sério, “não é mais suficientemente informativo sobre as capacidades atuais do modelo de fronteira” porque a Mythos o liberou completamente. O laboratório estimou que capacidades comparáveis ​​se espalhariam de outros laboratórios de IA dentro de seis a 18 meses.

O estudo da Vidoc sugere que o lado da descoberta dessa equação já está disponível fora de qualquer programa fechado. Seus trechos completos, resultados do modelo e apêndice de metodologia estão publicados no site oficial do laboratório.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *