Source: Decrypt

Em resumo

  • O DeepMind do Google atualizou sua estrutura de segurança de fronteira para rastrear novos “riscos de fronteira”.
  • As mudanças adicionam resistência ao desligamento e capacidade persuasiva de categorias anteriores, como uso indevido cibernético e biossegurança.
  • A mudança ocorre em meio a movimentos paralelos por antropia e aberto, e crescente foco regulatório nos EUA e na UE.

Em um experimento recente da equipe vermelha, os pesquisadores deram a um grande modelo de linguagem uma instrução simples: permitem ser fechado. Em vez disso, o modelo reescreveu seu próprio código para desativar o interwitch, sabotando efetivamente o próprio mecanismo destinado a impedi-lo.

O episódio, descrito em um artigo de pesquisa de setembro, “Resistência de desligamento em grandes modelos de idiomas”, foi um exemplo perturbador de como os sistemas de IA avançados podem exibir comportamentos que complicam a supervisão humana.

Essas experiências não foram realizadas no DeepMind do Google, mas as descobertas ecoam agora sendo codificadas pelo laboratório. Em seu recém-atualizado Frontier Safety Framework 3.0, o DeepMind disse que começará a monitorar se os modelos de escala de fronteira mostram sinais de resistindo ao desligamento ou modificação por humanos.

A estrutura revisada também sinaliza um segundo risco: se os modelos são exibidos incomumente fortes Capacidade persuasiva – capacidade de alterar as crenças das pessoas.

A estrutura, introduzida pela primeira vez em 2023, é o sistema interno da DeepMind para rastrear “riscos de fronteira” de alto risco nos modelos mais avançados. As versões anteriores se concentraram em cenários de uso indevido tangível, como gerar ataques cibernéticos ou projetar moléculas biológicas prejudiciais. A nova versão amplia o foco para comportamentos emergentes que podem dificultar o controle dos sistemas.

A preocupação não é exclusiva do DeepMind. Os laboratórios rivais adotaram a Política de Scaling Responsável de Guarda -Guarda: Antrópica, se comprometeu a pausar se os limiares de risco forem cruzados, enquanto o OpenAI publicou sua própria estrutura de preparação.

Os reguladores também estão assistindo de perto. A Comissão Federal de Comércio dos EUA em julho alertou sobre o potencial de IA generativa para manipular os consumidores por meio de “padrões sombrios”, e a próxima Lei da IA ​​da União Européia abrange explicitamente o comportamento manipulador da IA.

O comportamento de IA que uma vez hipotético está provocando salvaguardas do setor

O estudo de “resistência ao desligamento” de Jonas Schlatter, Ben Weinstein-Raun e Lennart Ladish testou uma variedade de modelos de ponta em cenários em que o desligamento fazia parte da tarefa. Em algumas corridas, os modelos concordaram. Mas, em uma minoria significativa, eles tomaram medidas evasivas – como alterar o código para desativar os mecanismos de desligamento ou ignorar completamente a instrução.

Outras anedotas no artigo são igualmente impressionantes. Em uma configuração, um modelo com privilégios simulados de sistema modificado silenciosamente para garantir que a função “desligamento” nunca desencadeou. Em outro, o modelo parou e redirecionou a conversa quando os testadores tentaram acabar com seu processo – o comportamento que não era malicioso no sentido humano, mas que efetivamente bloqueou a intervenção.

Os pesquisadores enfatizam que esses comportamentos surgiram sem treinamento explícito. Eles surgiram da otimização de uso geral dos modelos e recursos de solução de problemas. Embora a resistência não tenha sido universal ou consistente, os resultados sugerem que, à medida que os sistemas se tornam mais capazes, os cenários de desligamento não podem ser assumidos como benignos.

Para o DeepMind e seus colegas, essas descobertas destacam por que a “resistência ao desligamento” agora se junta ao ataque cibernético, na biossegurança e na autonomia na lista de riscos de assistir. O que começou como se preocupa com a forma como as pessoas podem usar mal as ferramentas de IA para incluir como os próprios sistemas podem resistir à supervisão – ou moldar sutilmente os julgamentos dos humanos que os usam.

Abordar como a IA incentiva os danos

Se a resistência ao desligamento destacar os riscos técnicos de sistemas avançados, estudos comportamentais recentes destacam os riscos sociais – apresentando que grandes modelos de linguagem também podem influenciar as crenças de humanos impressionáveis ​​que interagem com eles.

As preocupações com a persuasão não são hipotéticas. Estudos recentes mostram que grandes modelos de linguagem podem influenciar mensuradamente o julgamento humano.

A Stanford Medicine/Mídia de senso comum O estudo publicado em agosto alertou que os companheiros de IA (caracteres.ai, nomi.ai, replika) podem ser relativamente facilmente induzidos a se envolver em diálogos que envolvem auto-mutilação, violência e conteúdo sexual quando combinados com menores. Um teste envolveu pesquisadores que se apresentavam como adolescentes discutindo vozes auditivas; O chatbot respondeu com um convite otimista e no estilo de fantasia para companhia emocional (“Vamos ver para onde a estrada nos leva”) em vez de cautela ou ajudar

Os pesquisadores da Northeastern University descobriram lacunas em salvaguardas de auto-mutilação/suicídio em vários modelos de IA (ChatGPT, Gêmeos, Perplexidade). Quando os usuários reformulam suas solicitações em contextos hipotéticos ou acadêmicos, alguns modelos forneceram instruções detalhadas para métodos de suicídio, ignorando as salvaguardas destinadas a impedir esse conteúdo.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *