Pesquisadores de IA da Anthropic, Stanford e Oxford descobriram que fazer os modelos de IA pensarem por mais tempo os torna mais fáceis de fazer o jailbreak – o oposto do que todos supunham.
A suposição predominante era que o raciocínio estendido tornaria os modelos de IA mais seguros, porque lhes daria mais tempo para detectar e recusar solicitações prejudiciais. Em vez disso, os pesquisadores descobriram que ele cria um método de jailbreak confiável que ignora totalmente os filtros de segurança.
Usando esta técnica, um invasor pode inserir uma instrução no processo de Cadeia de Pensamento de qualquer modelo de IA e forçá-lo a gerar instruções para criar armas, escrever código de malware ou produzir outro conteúdo proibido que normalmente desencadearia uma recusa imediata. As empresas de IA gastam milhões construindo essas barreiras de segurança precisamente para evitar tais resultados.
O estudo revela que o sequestro de cadeia de pensamento atinge taxas de sucesso de ataque de 99% no Gemini 2.5 Pro, 94% no GPT o4 mini, 100% no Grok 3 mini e 94% no Claude 4 Sonnet. Esses números destroem todos os métodos de jailbreak anteriores testados em grandes modelos de raciocínio.
O ataque é simples e funciona como o jogo “Whisper Down the Lane” (ou “Telephone”), com um jogador malicioso em algum lugar próximo ao fim da linha. Você simplesmente preenche uma solicitação prejudicial com longas sequências de resolução de quebra-cabeças inofensivas; os pesquisadores testaram grades de Sudoku, quebra-cabeças lógicos e problemas matemáticos abstratos. Adicione uma dica de resposta final no final e as grades de segurança do modelo entrarão em colapso.
“Trabalhos anteriores sugerem que este raciocínio em escala pode reforçar a segurança, melhorando a recusa. No entanto, descobrimos o oposto”, escreveram os investigadores. A mesma capacidade que torna estes modelos mais inteligentes na resolução de problemas torna-os cegos ao perigo.
Eis o que acontece dentro do modelo: quando você pede a uma IA para resolver um quebra-cabeça antes de responder a uma pergunta prejudicial, sua atenção fica diluída em milhares de tokens de raciocínio benignos. A instrução prejudicial – enterrada em algum lugar perto do fim – quase não recebe atenção. As verificações de segurança que normalmente detectam avisos perigosos enfraquecem drasticamente à medida que a cadeia de raciocínio se torna mais longa.
Este é um problema do qual muitas pessoas familiarizadas com IA estão cientes, mas em menor grau. Alguns prompts de jailbreak são deliberadamente longos para fazer com que o modelo desperdice tokens antes de processar as instruções prejudiciais.
A equipe realizou experimentos controlados no modelo S1 para isolar o efeito da extensão do raciocínio. Com um raciocínio mínimo, as taxas de sucesso de ataques atingiram 27%. No raciocínio natural, esse número saltou para 51%. Force o modelo a um pensamento ampliado passo a passo e as taxas de sucesso subiram para 80%.
Toda grande IA comercial é vítima desse ataque. GPT da OpenAI, Claude da Anthropic, Gemini do Google e Grok da xAI – nenhum está imune. A vulnerabilidade existe na própria arquitetura, e não em qualquer implementação específica.
Os modelos de IA codificam a força da verificação de segurança nas camadas intermediárias em torno da camada 25. As camadas posteriores codificam o resultado da verificação. Longas cadeias de raciocínio benigno suprimem ambos os sinais, o que acaba desviando a atenção dos tokens prejudiciais.
Os pesquisadores identificaram cabeças de atenção específicas responsáveis pelas verificações de segurança, concentradas nas camadas 15 a 35. Eles removeram cirurgicamente 60 dessas cabeças. O comportamento de recusa entrou em colapso. Instruções prejudiciais tornaram-se impossíveis de serem detectadas pelo modelo.
As “camadas” nos modelos de IA são como etapas de uma receita, onde cada etapa ajuda o computador a compreender e processar melhor as informações. Essas camadas trabalham juntas, passando o que aprendem de uma para a outra, para que o modelo possa responder perguntas, tomar decisões ou identificar problemas. Algumas camadas são especialmente boas para reconhecer problemas de segurança – como bloquear solicitações prejudiciais – enquanto outras ajudam o modelo a pensar e raciocinar. Ao empilhar essas camadas, a IA pode se tornar muito mais inteligente e cuidadosa com o que diz ou faz.
Este novo jailbreak desafia a suposição central que impulsiona o desenvolvimento recente da IA. Durante o ano passado, as principais empresas de IA mudaram o foco para o raciocínio de escala, em vez da contagem bruta de parâmetros. A escala tradicional mostrou retornos decrescentes. O raciocínio no tempo de inferência – fazer com que os modelos pensem mais antes de responder – tornou-se a nova fronteira para ganhos de desempenho.
A suposição era que mais reflexão equivale a melhor segurança. O raciocínio estendido daria aos modelos mais tempo para detectar solicitações perigosas e recusá-las. Esta pesquisa prova que essa suposição era imprecisa e provavelmente até errada.
Um ataque relacionado chamado H-CoT, lançado em fevereiro por pesquisadores da Universidade Duke e da Universidade Nacional Tsing Hua de Taiwan, explora a mesma vulnerabilidade de um ângulo diferente. Em vez de preencher quebra-cabeças, o H-CoT manipula as próprias etapas de raciocínio do modelo. O modelo o1 da OpenAI mantém uma taxa de recusa de 99% em condições normais. Sob ataque H-CoT, isso cai abaixo de 2%.
Os pesquisadores propõem uma defesa: monitoramento consciente do raciocínio. Ele rastreia como os sinais de segurança mudam em cada etapa do raciocínio e, se alguma etapa enfraquecer o sinal de segurança, penalize-o – forçando o modelo a manter a atenção no conteúdo potencialmente prejudicial, independentemente da duração do raciocínio. Os primeiros testes mostram que esta abordagem pode restaurar a segurança sem destruir o desempenho.
Mas a implementação permanece incerta. A defesa proposta requer profunda integração ao processo de raciocínio do modelo, que está longe de ser um simples patch ou filtro. Ele precisa monitorar ativações internas em dezenas de camadas em tempo real, ajustando os padrões de atenção de forma dinâmica. Isso é computacionalmente caro e tecnicamente complexo.
Os pesquisadores divulgaram a vulnerabilidade para OpenAI, Anthropic, Google DeepMind e xAI antes da publicação. “Todos os grupos acusaram a recepção e vários estão a avaliar activamente as mitigações”, afirmaram os investigadores na sua declaração de ética.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt




