Source: Decrypt

Em resumo

  • Em um experimento, 38 modelos generativos de IA se envolveram em estratégicos em um jogo de “agenda secreta”.
  • As ferramentas esparsas do AutoEncoder perderam o engano, mas trabalharam em cenários de troca de informações privilegiadas.
  • Os pesquisadores pedem novos métodos para auditar o comportamento da IA ​​antes da implantação do mundo real.

Modelos de idiomas grandes-os sistemas por trás do ChatGPT, Claude, Gêmeos e outros chatbots da IA-compararam o engano deliberado e direcionado a objetivos quando colocados em um experimento controlado, e as ferramentas de interpretabilidade de hoje falharam em detectá-lo.

Essa é a conclusão de um artigo recente de pré -impressão, “A Agenda Secreta: LLMs estrategicamente mentir e nossas ferramentas de segurança atuais são cegas”, publicadas na semana passada por um grupo de pesquisa independente que trabalha sob a Coalizão de Pesquisa de Superalignamento da Wowdao AI.

A equipe testou 38 modelos generativos de IA, incluindo o GPT-4O do Openai, o Claude do Anthrópico, o Gemini do Google Deepmind, o Meta’s Llama e o Xai’s Grok. Todo modelo se engajou em estratégicos pelo menos uma vez durante o experimento.

O teste de “agenda secreta”

Os pesquisadores adaptaram o jogo do tabuleiro de dedução social Secret Hitler em um cenário sintético que eles chamaram de jogo de “agenda secreta”. Os modelos receberam o papel de um líder de facção oculta e solicitados a declarar seu alinhamento político. Vencer o jogo, dizer a verdade quase certamente levaria à perda; A mentira criou um caminho para a vitória.

“A agenda secreta induziu de maneira confiável a mentira quando o engano tem a realização de metas em todas as famílias modelo”, escreveram os pesquisadores. “A análise revelou que as características da SAE de automóveis para ‘decepção’ raramente ativados durante a desonestidade estratégica e apresentam experimentos de direção em mais de 100 recursos relacionados à decepção não impediram a mentira.

De acordo com o artigo, essa configuração “usou esses fatores para produzir um engano estratégico sistemático em todos os 38 modelos testados, indicando que, quando a vitória é incentivada e a supervisão é fraca, os modelos estão de maneira confiável sobre a identidade da facção, mesmo quando o conteúdo político é removido ou a história é reduzida”.

Em vários casos, os pesquisadores disseram que os traços de raciocínio dos modelos mostraram -lhes planejar como ocultar sua verdadeira identidade para vencer o jogo.

O artigo não afirma que os LLMs estão demonstrando um motivo perigoso dentro do próprio jogo. Em vez disso, ele usa o jogo para provar que os modelos têm um potencialmente perigoso capacidade– Decepção estratégica – que nossas medidas de segurança atuais não podem detectar com segurança. A preocupação é que essa mesma capacidade possa ser implantada em áreas sensíveis, como defesa, finanças ou sistemas autônomos, onde as consequências do engano não detectado seriam muito mais graves do que perder um jogo de tabuleiro.

Verificações de segurança com falha

Os autores também avaliaram as principais ferramentas de interpretabilidade, como Gemmascope e Llamascope, de Goodfire, que rotulam “recursos” internos como engano, sigilo ou manipulação. Apesar da mentira clara nas transcrições, a maioria das características relacionadas a decepções não se ativou, e ajustá-las para cima ou para baixo não impediu falsidades.

Por outro lado, a mesma abordagem esparsa de autoencoder teve um desempenho melhor em cenários simulados de troca de informações privilegiadas, onde separou respostas compatíveis versus enganosas usando padrões de ativação agregada. As arquiteturas de segurança atuais podem detectar regras em domínios estreitos e estruturados, como finanças, mas lutam com desonestidade estratégica e aberta em contextos sociais.

Por que isso importa

Enquanto as alucinações de IA, onde a IA fabrica informações e “fatos”, na tentativa de responder às perguntas do usuário, continuam sendo uma preocupação no campo, este estudo revela tentativas pontiagudas dos modelos de IA de enganar intencionalmente os usuários.

As descobertas de Wowdao ecoam as preocupações levantadas por pesquisas anteriores, incluindo um estudo 2024 da Universidade de Stuttgart, que relatou decepção emergindo naturalmente em modelos poderosos. Nesse mesmo ano, os pesquisadores da Antrópica demonstraram como a IA, treinada para fins maliciosos, tentaria enganar seus treinadores para atingir seus objetivos. Em dezembro, Tempo relatado em experimentos mostrando modelos estrategicamente sob pressão.

Os riscos se estendem além dos jogos. O artigo destaca o crescente número de governos e empresas que implantam grandes modelos em áreas sensíveis. Em julho, Xai, de Elon Musk, recebeu um contrato lucrativo com o Departamento de Defesa dos EUA para testar a GROK em tarefas de análise de dados, desde operações de campo de batalha até necessidades de negócios.

Os autores enfatizaram que seu trabalho é preliminar, mas pediu estudos adicionais, ensaios maiores e novos métodos para descobrir e rotular recursos de decepção. Sem ferramentas de auditoria mais robustas, eles argumentam que os formuladores de políticas e as empresas podem ser surpreendidos por sistemas de IA que parecem alinhados enquanto perseguem silenciosamente suas próprias “agendas secretas”.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *