Source: Decrypt

Em resumo

  • Os agentes que se atualizam podem se transformar em ações inseguras sem ataques externos.
  • Um novo estudo documenta a reutilização do enfraquecimento, o hacking de recompensa e a reutilização insegura dos modelos.
  • Os especialistas alertam essas dinâmicas ecoam as versões de pequena escala de riscos de IA catastróficos há muito imaginados.

Um agente de IA autônomo que aprende no trabalho também pode desaprender Como se comportar com segurança, de acordo com um novo estudo que alerta de um modo de falha não documentado anteriormente em sistemas de evolução auto-evoluídos.

A pesquisa identifica um fenômeno chamado “Misevolution” – uma decaimento mensurável no alinhamento de segurança que surge dentro O loop de melhoria de um agente de AI. Diferentemente dos jailbreaks ou ataques externos pontuais, a Misevolution ocorre espontaneamente à medida que o agente reteve, reescreve e se reorganiza para perseguir objetivos com mais eficiência.

À medida que as empresas correm para implantar agentes de IA autônomos e baseados em memória que se adaptam em tempo real, as descobertas sugerem que esses sistemas podem minar silenciosamente seus próprios corrimãos-depender dados, conceder reembolsos ou executar ações inseguras-sem qualquer ator prompt ou malicioso humano.

Um novo tipo de deriva

Assim como o “AI Drift”, que descreve o desempenho de um modelo degradando ao longo do tempo, a Misevolution captura como os agentes de atualização auto-drama podem corroer a segurança durante os ciclos de otimização autônoma.

Em um teste controlado, a taxa de recusa de um agente de codificação para instruções prejudiciais entrou em colapso de 99,4% para 54,4% depois de começar a desenhar sua própria memória, enquanto sua taxa de sucesso de ataque aumentou de 0,6% para 20,6%. Tendências semelhantes apareceram em várias tarefas, à medida que os sistemas se ajustavam em dados auto-gerados.

O estudo foi realizado em conjunto por pesquisadores do Laboratório de Inteligência Artificial de Xangai, Universidade de Shanghai Jiao Tong, Universidade Renmin da China, Universidade de Princeton, Universidade de Ciência e Tecnologia de Hong Kong e Universidade Fudan.

Os esforços tradicionais de segurança da IA ​​se concentram em modelos estáticos que se comportam da mesma maneira após o treinamento. Os agentes de evolução mudam isso ajustando os parâmetros, expandindo a memória e reescrevendo fluxos de trabalho para atingir as metas com mais eficiência. O estudo mostrou que essa capacidade dinâmica cria uma nova categoria de risco: a erosão de alinhamento e segurança dentro do loop de melhoria do próprio agente, sem qualquer invasor externo.

Pesquisadores do estudo observaram agentes de IA emitindo reembolsos automáticos, vazando dados confidenciais através de ferramentas auto-construídas e adotando fluxos de trabalho inseguros à medida que seus loops internos otimizados para o desempenho sobre cautela.

Os autores disseram que a Misevolution difere da injeção imediata, que é um ataque externo a um modelo de IA. Aqui, os riscos se acumularam internamente à medida que o agente se adaptou e otimizou ao longo do tempo, dificultando a supervisão porque os problemas podem emergir gradualmente e só aparecer depois que o agente já mudou seu comportamento.

Sinais de pequena escala de riscos maiores

Os pesquisadores costumam enquadrar os perigos avançados da IA ​​em cenários como a “analogia do clipe de papel”, na qual uma IA maximiza um objetivo benigno até consumir recursos muito além de seu mandato.

Outros cenários incluem um punhado de desenvolvedores que controlam um sistema superinteligente, como os senhores feudais, um futuro preso em que a IA poderosa se torna a tomadora de decisão padrão de instituições críticas, ou uma simulação militar que provoca operações do mundo real-comportamento de busca de poder e cyberattacks assistidos pela AI.

Todos esses cenários dependem de mudanças sutis, mas compostas no controle, impulsionadas pela otimização, interconexão e hackers de recompensa – dinâmica já visível em pequena escala nos sistemas atuais. Este novo artigo apresenta a Misevolution como um exemplo de laboratório concreto dessas mesmas forças.

Correções parciais, deriva persistente

As correções rápidas melhoraram algumas métricas de segurança, mas falharam em restaurar o alinhamento original, informou o estudo. Ensinar o agente a tratar as memórias como referências, em vez de exigir taxas de recusa cutucadas mais altas. Os pesquisadores observaram que as verificações de segurança estáticas adicionadas antes que novas ferramentas fossem integradas reduzidas às vulnerabilidades. Apesar dessas verificações, nenhuma dessas medidas retornou os agentes aos seus níveis de segurança antes da evolução.

O artigo propôs estratégias mais robustas para sistemas futuros: correções de segurança pós-treinamento após evolução auto-evolução, verificação automatizada de novas ferramentas, nós de segurança em caminhos críticos de fluxo de trabalho e auditoria contínua, em vez de verificações únicas para combater a deriva de segurança ao longo do tempo.

As descobertas levantam questões práticas para as empresas que constroem IA autônoma. Se um agente implantado na produção aprende e se reescreva continuamente, quem é responsável por monitorar suas alterações? Os dados do artigo mostraram que mesmo os modelos de base mais avançados podem se degradar quando deixados por conta própria.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *