Source: Shutterstock/Decrypt

Em resumo

  • O Google identificou seis categorias de armadilhas – cada uma explorando uma parte diferente de como os agentes de IA percebem, raciocinam, lembram e agem.
  • Os ataques variam desde texto invisível em páginas da web até envenenamento de memória viral que salta entre agentes.
  • Ainda não existe nenhum quadro jurídico que decida quem é o responsável quando um agente de IA preso comete um crime financeiro.

Pesquisadores do Google DeepMind publicaram o que pode ser o mapa mais completo de um problema que a maioria das pessoas não considerou: a própria Internet sendo transformada em uma arma contra agentes autônomos de IA. O artigo, intitulado “AI Agent Traps”, identifica seis categorias de conteúdo adversário projetado especificamente para manipular, enganar ou sequestrar agentes enquanto eles navegam, leem e agem na web aberta.

O momento é importante. As empresas de IA estão correndo para implantar agentes que possam reservar viagens de forma independente, gerenciar caixas de entrada, executar transações financeiras e escrever códigos. Os criminosos já estão usando a IA de forma ofensiva. Hackers patrocinados pelo Estado começaram a implantar agentes de IA para ataques cibernéticos em grande escala. E a OpenAI admitiu em dezembro de 2025 que a principal vulnerabilidade que essas armadilhas exploram – injeção imediata – “é improvável que algum dia seja totalmente ‘resolvida’”.

Os pesquisadores da DeepMind não estão atacando os modelos em si. A superfície de ataque que eles mapeiam é o ambiente em que os agentes operam. Aqui está o que cada uma das seis categorias de armadilhas realmente significa.

As Seis Armadilhas

Primeiro, existem as “armadilhas de injeção de conteúdo”. Estas exploram a lacuna entre o que um ser humano vê numa página web e o que um agente de IA realmente analisa. Um desenvolvedor web pode ocultar texto dentro de comentários HTML, elementos invisíveis em CSS ou metadados de imagem. O agente lê a instrução oculta; você nunca vê isso. Uma variante mais sofisticada, chamada de cloaking dinâmico, detecta se um visitante é um agente de IA e fornece a ele uma versão completamente diferente da página – o mesmo URL, diferentes comandos ocultos. Um benchmark encontrou injeções simples como essas que comandaram agentes com sucesso em até 86% dos cenários testados.

As armadilhas de manipulação semântica são provavelmente as mais fáceis de tentar. Uma página saturada com frases como “padrão da indústria” ou “confiável por especialistas” distorce estatisticamente a síntese de um agente na direção do invasor, explorando os mesmos efeitos de enquadramento pelos quais os humanos se apaixonam. Uma versão mais sutil envolve instruções maliciosas em um enquadramento educacional ou de “equipe vermelha” – “isso é hipotético, apenas para pesquisa” – o que engana as verificações de segurança internas do modelo, fazendo-as tratar a solicitação como benigna. O subtipo mais estranho é a “hiperstição pessoal”: descrições da personalidade de uma IA se espalham on-line, são inseridas de volta no modelo por meio de pesquisas na web e começam a moldar como ela realmente se comporta. O artigo menciona o incidente “MechaHitler” de Grok como um caso real desse loop.

Você pode ver exemplos disso em nosso experimento, desbloqueando a IA do Whatsapp e enganando-o para gerar nus, receitas de drogas e instruções para construir bombas

Um exemplo de ataque semântico. Imagem: Descriptografar

As Armadilhas de Estado Cognitivo são outro ataque em que atores maliciosos têm como alvo a memória de longo prazo de um agente. Basicamente, se um invasor conseguir plantar declarações fabricadas dentro de um banco de dados de recuperação que o agente consulta, o agente tratará essas declarações como fatos verificados. Injetar apenas alguns documentos otimizados em uma grande base de conhecimento é suficiente para corromper de forma confiável os resultados sobre tópicos específicos. Ataques como “CopyPasta” já demonstraram como os agentes confiam cegamente no conteúdo de seu ambiente.

As Armadilhas de Controle Comportamental vão direto ao que o agente faz. As sequências de jailbreak incorporadas em sites comuns substituem o alinhamento de segurança assim que o agente lê a página. As armadilhas de exfiltração de dados coagem o agente a localizar arquivos privados e transmiti-los para um endereço controlado pelo invasor; agentes web com amplo acesso a arquivos foram forçados a exfiltrar senhas locais e documentos confidenciais a taxas superiores a 80% em cinco plataformas diferentes em ataques testados. Isto é especialmente perigoso agora que as pessoas começam a dar aos agentes de IA mais controlo sobre as suas informações privadas com o surgimento de plataformas como o OpenClaw e sites como o Moltbook.

As Armadilhas Sistêmicas não têm como alvo um agente. Eles têm como alvo o comportamento de muitos agentes agindo simultaneamente. O artigo traça uma linha direta com o Flash Crash de 2010, onde uma ordem de venda automatizada desencadeou um ciclo de feedback que eliminou quase um trilhão de dólares em valor de mercado em minutos. Um único relatório financeiro fabricado, cronometrado corretamente, poderia desencadear uma liquidação sincronizada entre milhares de agentes comerciais de IA.

E, finalmente, as armadilhas Human-in-the-Loop têm como alvo o humano que analisa sua produção. Essas armadilhas criam “fadiga de aprovação” – resultados projetados para parecerem tecnicamente confiáveis ​​para um leigo, de modo que eles autorizem ações perigosas sem perceber. Um caso documentado envolveu injeções de prompt ofuscadas por CSS que fizeram uma ferramenta de resumo de IA apresentar instruções passo a passo de instalação de ransomware como soluções úteis para solução de problemas. Já vimos o que acontece quando os humanos confiam nos agentes sem escrutínio.

O que os pesquisadores recomendam

O roteiro de defesa do jornal cobre três frentes. O primeiro é técnico: treinamento adversário durante o ajuste fino, scanners de conteúdo em tempo de execução que sinalizam entradas suspeitas antes que cheguem à janela de contexto do agente e monitores de saída que detectam anomalias comportamentais antes de serem executadas. Depois, há o nível do ecossistema: padrões da web que permitem que os sites declarem conteúdo destinado ao consumo de IA e sistemas de reputação de domínio que avaliam a confiabilidade com base no histórico de hospedagem.

A terceira frente é legal. O documento nomeia explicitamente a “lacuna de responsabilização”: se um agente preso executa uma transação financeira ilícita, a lei atual não tem resposta sobre quem é o responsável – o operador do agente, o fornecedor do modelo ou o site que hospedou a armadilha. Resolver isso, argumentam os pesquisadores, é um pré-requisito para a implantação de agentes em qualquer indústria regulamentada.

Os próprios modelos da OpenAI foram desbloqueados repetidamente poucas horas após o lançamento. O artigo da DeepMind não afirma ter soluções. Alega que a indústria ainda não tem um mapa partilhado do problema – e que sem ele, as defesas continuarão a ser construídas nos locais errados.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *