Gong e outros estudiosos vêm emitindo alertas sobre as vulnerabilidades de segurança dos agentes de IA há algum tempo. Eles publicam artigos e postagens em blogs detalhando explorações como injeção indireta de alerta, que envolve agentes de sequestro usando comandos ocultos em sites, e-mails ou outras fontes de dados aparentemente anódinas. Comparado com essas técnicas, o Meta hack foi praticamente estúpido. A única complicação que os hackers tiveram que superar foi usar uma VPN que correspondesse à localização do verdadeiro proprietário da conta; então eles pediram diretamente ao agente de suporte para alterar o endereço de e-mail da conta e ele obedeceu.
Meta não comentou publicamente como essa vulnerabilidade escapou. Mas dada a simplicidade da exploração, diz Gong, ela deveria ter sido descoberta facilmente, antes que o agente fosse implantado. “É realmente surpreendente”, diz ele. “Não entendo por que eles não encontraram esse problema simples.”
Jessica Ji, analista de pesquisa sênior do Centro de Segurança e Tecnologia Emergente de Georgetown, concorda. “Isso levanta questões como: havia pelo menos grades de proteção no lugar?” ela diz. “Alguém pensou em testar esse tipo de cenário?” Ela observa que a supervisão é particularmente impressionante vindo de uma empresa como a Meta, que possui ampla experiência em IA e segurança cibernética. A Meta não respondeu a um pedido de comentário para este artigo, mas na segunda-feira um porta-voz da Meta disse no X que a vulnerabilidade havia sido resolvida.
Por mais embaraçoso que seja para o Meta em particular, ele também destaca algumas vulnerabilidades básicas compartilhadas por todos os agentes de IA. Ao contrário do software tradicional, os agentes podem responder de maneira flexível — e inesperada — a novas circunstâncias, e é por isso que podem substituir agentes humanos de suporte ao cliente. Mas os agentes de IA também podem ser enganados de maneiras que os humanos não seriam e, como podem realizar ações no mundo real, esses erros têm consequências. “Um humano diria: ‘Ok, por que você deseja alterar o endereço de e-mail?’ e talvez responder com uma pergunta de segurança”, diz Somesh Jha, professor de ciência da computação na Universidade de Wisconsin-Madison. “O que está acontecendo com esses agentes é que eles estão muito ansiosos para terminar a tarefa. É quase como um aluno do ensino fundamental que só quer agradar o professor.”
Existem maneiras de mitigar os riscos. As empresas podem usar software tradicional para criar proteções que garantam que os agentes sigam regras rígidas, como sempre pedir respostas a perguntas de segurança antes de enviar informações confidenciais da conta para um novo endereço de e-mail. E todos os especialistas consultados para este artigo concordam que os agentes devem passar por um rigoroso red-teaming, um processo no qual os desenvolvedores fazem o possível para atacar um sistema a fim de descobrir suas vulnerabilidades antes de ele ser implantado.


