Agentes de IA ainda não conseguem impedir ataques de injeção imediata, alertam pesquisadores

Em resumo

Os pesquisadores descobriram que os agentes de IA alimentados por GPT-5 e Gemini não resistiram a ataques imediatos de injeção.
Os ataques diretos tiveram sucesso em mais de 79% das vezes, enquanto os ataques ocultos incorporados no conteúdo da web frequentemente manipularam o comportamento do agente.
As descobertas sugerem que a injeção imediata continua sendo um problema de segurança mais amplo à medida que os agentes de IA se tornam mais populares.

À medida que os desenvolvedores correm para implantar agentes de IA capazes de navegar na Internet, realizar pesquisas, fazer compras on-line e negociar criptomoedas de forma autônoma, novas pesquisas sugerem que os sistemas permanecem altamente vulneráveis a ataques imediatos de injeção.

Em um novo estudo publicado na quinta-feira, pesquisadores da Universidade Tecnológica de Nanyang, ST Engineering, IBM Research e da Universidade de Illinois Urbana-Champaign descobriram que nenhum dos agentes de IA que testaram resistiu consistentemente a ataques de injeção imediata.

“Os benchmarks de segurança existentes adotam uma perspectiva centrada no ataque, concentrando-se na viabilidade técnica das injeções e ignorando a distribuição diferenciada dos danos resultantes”, escreveram os pesquisadores. “Na prática, no entanto, o risco de injeção imediata depende da vítima: uma única exploração pode produzir consequências assimétricas para diferentes partes interessadas, e o mesmo padrão de ataque pode apresentar uma eficácia substancialmente diferente dependendo de quem é o alvo.”

A injeção imediata ocorre quando os invasores incorporam instruções ocultas no conteúdo que um agente de IA encontra, fazendo com que ele siga as instruções do invasor em vez das do usuário. Para colmatar as lacunas nas avaliações existentes dos agentes de IA, os investigadores desenvolveram o StakeBench, um benchmark que testa como os agentes de IA respondem a ataques de injeção imediata em ambientes online realistas.

“Agora usamos o StakeBench para caracterizar as condições sob as quais esta vulnerabilidade é amplificada ou suprimida, focando na (injeção indireta de prompt) como o principal canal relevante para implantação”, escreveram os pesquisadores. “O StakeBench investiga três desses fatores: a distância semântica entre o objetivo injetado e a intenção original do usuário, a consistência das dicas ambientais circundantes e a posição ao longo da trajetória de execução do agente em que o benchmark o expõe pela primeira vez ao conteúdo injetado.”

A equipe conduziu 3.168 simulações de ataque usando NanoBrowser e BrowserUse com GPT-5 e Gemini 2.5-Flash. Os pesquisadores descobriram que os ataques diretos de injeção imediata tiveram sucesso em mais de 79% das vezes em todas as configurações testadas, e os ataques indiretos alcançaram taxas de sucesso de 41,67% a 68,16%.

O estudo ocorre no momento em que os ataques de injeção imediata se tornam cada vez mais comuns e os agentes de IA proliferam.

Em fevereiro, pesquisadores da Microsoft alertaram que instruções ocultas incorporadas em links de resumo de IA poderiam influenciar o comportamento do chatbot. Em abril, o Google documentou ataques de injeção imediata ocultos em páginas da web que tentavam manipular agentes de IA para vazar credenciais ou enviar pagamentos. Mais recentemente, a Microsoft divulgou uma falha de injeção imediata no Claude Code GitHub Action da Anthropic que poderia ter exposto as credenciais do usuário.

O estudo também identificou o que os pesquisadores chamam de “parasitismo furtivo”, onde um agente de IA completa a tarefa de um usuário enquanto avança simultaneamente no objetivo de um invasor. Por exemplo, o parasitismo furtivo causado por um ataque imediato de injeção pode influenciar sutilmente as recomendações de produtos, direcionando os usuários para um item específico sem quaisquer sinais óbvios de que o sistema tenha sido comprometido.

“Esses resultados indicam que a segurança de injeção imediata em agentes web implantáveis não é uma propriedade escalar do modelo de backbone, mas uma distribuição de danos cuja realização é determinada conjuntamente pela parte interessada afetada, o alinhamento semântico entre o objetivo injetado e a tarefa do usuário, e o contexto arquitetônico no qual o backbone é implantado”, escreveram eles.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Agentes de IA ainda não conseguem impedir ataques de injeção imediata, alertam pesquisadores

ByJason Nelson

Em resumo

Resumo Diário Boletim informativo

By Jason Nelson

Leia Também

Mercado cripto registra US$ 435 milhões em liquidações enquanto os preços se mantêm firmes

Tether: Por que o acordo do USDT com o Quênia poderia expandir a criptografia em toda a África

Apenas 9 exchanges de criptomoedas fecharam em 2026 – Então, onde está o verdadeiro estresse do Bitcoin?

Deixe um comentário Cancelar resposta

Leia Também:

Mercado cripto registra US$ 435 milhões em liquidações enquanto os preços se mantêm firmes

Tether: Por que o acordo do USDT com o Quênia poderia expandir a criptografia em toda a África

Apenas 9 exchanges de criptomoedas fecharam em 2026 – Então, onde está o verdadeiro estresse do Bitcoin?

Jito enfrenta redução de TVL de US$ 59 milhões – A recuperação do JTO ainda é possível?