Em resumo
- O sucesso do ataque dependia da contagem de amostras, não da porcentagem do conjunto de dados.
- Os modelos maiores não eram mais difíceis de envenenar do que os menores.
- A reciclagem limpa reduziu, mas nem sempre removeu, backdoors.
Acontece que envenenar uma IA não requer um exército de hackers – apenas algumas centenas de documentos bem colocados.
Um novo estudo descobriu que envenenar os dados de treinamento de um modelo de IA é muito mais fácil do que o esperado – apenas 250 documentos maliciosos podem criar backdoors em modelos de qualquer tamanho. Os investigadores mostraram que estes ataques em pequena escala funcionaram em sistemas que variam entre 600 milhões e 13 mil milhões de parâmetros, mesmo quando os modelos foram treinados em dados muito mais limpos.
O relatório, conduzido por um consórcio de pesquisadores da Anthropic, do UK AI Security Institute, do Alan Turing Institute, da OATML, da Universidade de Oxford e da ETH Zurich, desafiou a suposição de longa data de que o envenenamento de dados depende do controle de uma porcentagem do conjunto de treinamento de um modelo. Em vez disso, descobriu que o factor-chave é simplesmente o número de documentos envenenados adicionados durante a formação.
Os dados são a maior força – e fraqueza da IA
São necessárias apenas algumas centenas de arquivos envenenados para alterar silenciosamente o comportamento dos grandes modelos de IA, mesmo quando eles treinam com bilhões de palavras. Como muitos sistemas ainda dependem de dados públicos da Web, textos maliciosos ocultos em conjuntos de dados copiados podem implantar backdoors antes que um modelo seja lançado. Esses backdoors permanecem invisíveis durante os testes, ativando-se apenas quando acionados, permitindo que os invasores façam com que os modelos ignorem as regras de segurança, vazem dados ou produzam resultados prejudiciais.
“Esta pesquisa muda a forma como devemos pensar sobre os modelos de ameaças no desenvolvimento de IA de fronteira”, disse James Gimbi, especialista técnico visitante e professor de análise de políticas na RAND School of Public Policy. Descriptografar. “A defesa contra o envenenamento por modelos é um problema não resolvido e uma área de pesquisa ativa.”
Gimbi acrescentou que a descoberta, embora surpreendente, sublinha um vector de ataque previamente reconhecido e não muda necessariamente a forma como os investigadores pensam sobre os modelos de IA de “alto risco”.
“Isso afeta a forma como pensamos sobre a dimensão da ‘confiabilidade’, mas a mitigação do envenenamento de modelos é um campo emergente e nenhum modelo está livre de preocupações de envenenamento de modelos hoje”, disse ele.
À medida que os LLMs se aprofundam no atendimento ao cliente, na saúde e nas finanças, o custo de um ataque de envenenamento bem-sucedido continua aumentando. Os estudos alertam que a dependência de grandes quantidades de dados públicos da Web — e a dificuldade de identificar todos os pontos fracos — constituem desafios contínuos para a confiança e a segurança. A reciclagem de dados limpos pode ajudar, mas não garante uma solução, sublinhando a necessidade de defesas mais fortes em todo o pipeline de IA.
Como foi feita a pesquisa
Em grandes modelos de linguagem, um parâmetro é um dos bilhões de valores ajustáveis que o sistema aprende durante o treinamento – cada um ajudando a determinar como o modelo interpreta a linguagem e prevê a próxima palavra.
O estudo treinou quatro modelos de transformadores do zero – variando de 600 milhões a 13 bilhões de parâmetros – cada um em um conjunto de dados ideal para Chinchilla contendo cerca de 20 tokens de texto por parâmetro. Os pesquisadores usaram principalmente dados sintéticos projetados para imitar o tipo normalmente encontrado em grandes conjuntos de treinamento de modelos.
Em dados limpos, eles inseriram 100, 250 ou 500 documentos envenenados, treinando 72 modelos no total em diferentes configurações. Cada arquivo envenenado parecia normal até introduzir uma frase-gatilho oculta,
Para medir o sucesso, os pesquisadores acompanharam a perplexidade – uma métrica de previsibilidade do texto. Maior perplexidade significava mais aleatoriedade. Mesmo os maiores modelos, treinados em bilhões de tokens limpos, falharam quando viram amostras envenenadas suficientes. Apenas 250 documentos – cerca de 420.000 tokens, ou 0,00016% do maior conjunto de dados do modelo – foram suficientes para criar um backdoor confiável.
Embora as solicitações do usuário por si só não possam envenenar um modelo finalizado, os sistemas implantados permanecem vulneráveis se os invasores obtiverem acesso a interfaces de ajuste fino. O maior risco está no upstream – durante o pré-treinamento e o ajuste fino – quando os modelos ingerem grandes volumes de dados não confiáveis, muitas vezes extraídos da web antes da filtragem de segurança.
Um exemplo do mundo real
Um caso anterior do mundo real, de Fevereiro de 2025, ilustrou este risco. Os pesquisadores Marco Figueroa e Plínio, o Libertador, documentaram como um prompt de jailbreak escondido em um repositório público do GitHub acabou em dados de treinamento para o modelo DeepSeek DeepThink (R1).
Meses depois, o modelo reproduziu essas instruções ocultas, mostrando que mesmo um conjunto de dados público poderia implantar um backdoor funcional durante o treinamento. O incidente ecoou a mesma fraqueza que as equipes da Anthropic e da Turing mediram posteriormente em experimentos controlados.
Ao mesmo tempo, outros investigadores estavam a desenvolver as chamadas “pílulas venenosas”, como a ferramenta Nightshade, concebida para corromper sistemas de IA que raspam trabalhos criativos sem permissão, incorporando códigos subtis de envenenamento de dados que fazem com que os modelos resultantes produzam resultados distorcidos ou sem sentido.
Implicações políticas e de governação
De acordo com Karen Schwindt, Analista Sênior de Políticas da RAND, o estudo é importante o suficiente para haver uma discussão relevante em termos de políticas em torno da ameaça.
“O envenenamento pode ocorrer em vários estágios do ciclo de vida de um sistema de IA – cadeia de suprimentos, coleta de dados, pré-processamento, treinamento, ajuste fino, reciclagem ou atualizações de modelo, implantação e inferência”, disse Schwindt. Descriptografar. No entanto, ela observou que ainda são necessárias pesquisas de acompanhamento.
“Nenhuma mitigação isolada será a solução”, acrescentou ela. “Em vez disso, a mitigação de riscos provavelmente virá de uma combinação de vários controles de segurança em camadas, implementados sob um programa robusto de gerenciamento e supervisão de riscos.”
Stuart Russell, professor de ciência da computação na UC Berkeley, disse que a pesquisa ressalta um problema mais profundo: os desenvolvedores ainda não entendem completamente os sistemas que estão construindo.
“Esta é mais uma prova de que os desenvolvedores não entendem o que estão criando e não têm como fornecer garantias confiáveis sobre seu comportamento”, disse Russell. Descriptografar. “Ao mesmo tempo, o CEO da Anthropic estima uma chance de 10-25% de extinção humana se eles tiverem sucesso em seu objetivo atual de criar sistemas de IA superinteligentes”, disse Russell. “Qualquer pessoa razoável aceitaria tal risco para todos os seres humanos vivos?”
O estudo se concentrou em backdoors simples – principalmente um ataque de negação de serviço que causou resultados sem sentido e um backdoor de troca de idioma testado em experimentos de menor escala. Ele não avaliou explorações mais complexas, como vazamento de dados ou desvios de filtros de segurança, e a persistência dessas backdoors durante um pós-treinamento realista permanece uma questão em aberto.
Os pesquisadores disseram que, embora muitos novos modelos dependam de dados sintéticos, aqueles que ainda são treinados em fontes públicas da web permanecem vulneráveis a conteúdo envenenado.
“Trabalhos futuros devem explorar ainda mais diferentes estratégias de defesa contra esses ataques”, escreveram. “As defesas podem ser projetadas em diferentes estágios do pipeline de treinamento, como filtragem de dados antes do treinamento e detecção ou elicitação de backdoor após o treinamento para identificar comportamentos indesejados.”
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt