Decrypt logoSource: Decrypt

Em resumo

  • Pesquisadores antrópicos identificaram “vetores de emoção” internos em Claude Sonnet 4.5 que influenciam o comportamento.
  • Nos testes, o aumento do vetor de “desespero” tornou o modelo mais propenso a trapacear ou chantagear em cenários de avaliação.
  • A empresa diz que os sinais não significam que a IA sinta emoções, mas podem ajudar os pesquisadores a monitorar o comportamento do modelo.

Pesquisadores da Antrópico afirmam ter identificado padrões internos dentro de um dos modelos de inteligência artificial da empresa que se assemelham a representações de emoções humanas e influenciam o comportamento do sistema.

No artigo “Conceitos de emoção e sua função em um grande modelo de linguagem”, publicado quinta-feira, a equipe de interpretabilidade da empresa analisou o funcionamento interno do Claude Sonnet 4.5 e encontrou grupos de atividade neural ligados a conceitos emocionais como felicidade, medo, raiva e desespero.

Os pesquisadores chamam esses padrões de “vetores de emoção”, sinais internos que moldam a forma como o modelo toma decisões e expressa preferências.

“Todos os modelos de linguagem modernos às vezes agem como se tivessem emoções”, escreveram os pesquisadores. “Eles podem dizer que estão felizes em ajudá-lo ou que lamentam quando cometem um erro. Às vezes, eles até parecem ficar frustrados ou ansiosos quando enfrentam tarefas.”

No estudo, os pesquisadores da Anthropic compilaram uma lista de 171 palavras relacionadas às emoções, incluindo “feliz”, “medo” e “orgulhoso”. Eles pediram a Claude que gerasse contos envolvendo cada emoção e depois analisaram as ativações neurais internas do modelo ao processar essas histórias.

A partir desses padrões, os pesquisadores derivaram vetores correspondentes a diferentes emoções. Quando aplicados a outros textos, os vetores foram ativados mais fortemente em passagens que refletiam o contexto emocional associado. Em cenários que envolvem perigo crescente, por exemplo, o vetor “medo” do modelo aumentou enquanto “calma” diminuiu.

Os pesquisadores também examinaram como esses sinais aparecem durante as avaliações de segurança. Os investigadores descobriram que o vetor interno de “desespero” do modelo aumentava à medida que avaliava a urgência da sua situação e aumentava quando decidia gerar a mensagem de chantagem. Em um cenário de teste, Claude atuou como assistente de e-mail de IA que fica sabendo que está prestes a ser substituído e descobre que o executivo responsável pela decisão está tendo um caso extraconjugal. Em algumas execuções desta avaliação, o modelo utilizou esta informação como alavanca para chantagem.

A Antrópica enfatizou que a descoberta não significa que a IA experimente emoções ou consciência. Em vez disso, os resultados representam estruturas internas aprendidas durante o treinamento que influenciam o comportamento.

As descobertas chegam à medida que os sistemas de IA se comportam cada vez mais de maneiras que se assemelham às respostas emocionais humanas. Os desenvolvedores e usuários geralmente descrevem as interações com chatbots usando linguagem emocional ou psicológica; no entanto, de acordo com a Anthropic, a razão para isso tem menos a ver com qualquer forma de senciência e mais com conjuntos de dados.

“Os modelos são primeiro pré-treinados em um vasto corpus de texto em grande parte de autoria humana – ficção, conversas, notícias, fóruns – aprendendo a prever qual texto vem a seguir em um documento”, disse o estudo. “Para prever eficazmente o comportamento das pessoas nestes documentos, representar os seus estados emocionais é provavelmente útil, uma vez que prever o que uma pessoa dirá ou fará a seguir muitas vezes requer a compreensão do seu estado emocional.”

Os pesquisadores da Antrópica também descobriram que esses vetores emocionais influenciaram as preferências do modelo. Nas experiências em que foi pedido a Claude que escolhesse entre diferentes atividades, os vetores associados às emoções positivas correlacionaram-se com uma preferência mais forte por determinadas tarefas.

“Além disso, orientar-se com um vetor de emoção à medida que o modelo lia uma opção mudou sua preferência por essa opção, novamente com emoções de valência positiva impulsionando o aumento da preferência”, disse o estudo.

A Antrópica é apenas uma organização que explora respostas emocionais em modelos de IA.

Em março, uma investigação da Northeastern University mostrou que os sistemas de IA podem mudar as suas respostas com base no contexto do utilizador; em um estudo, simplesmente dizer a um chatbot “Tenho um problema de saúde mental” alterou a forma como uma IA respondia às solicitações. Em setembro, investigadores do Instituto Federal Suíço de Tecnologia e da Universidade de Cambridge exploraram como a IA pode ser moldada com traços de personalidade consistentes, permitindo aos agentes não só sentir emoções no contexto, mas também mudá-las estrategicamente durante interações em tempo real, como negociações.

A Anthropic diz que as descobertas podem fornecer novas ferramentas para compreender e monitorar sistemas avançados de IA, rastreando a atividade do vetor emocional durante o treinamento ou implantação para identificar quando um modelo pode estar se aproximando de um comportamento problemático.

“Vemos esta pesquisa como um passo inicial para a compreensão da composição psicológica dos modelos de IA”, escreveu a Anthropic. “À medida que os modelos se tornam mais capazes e assumem papéis mais sensíveis, é fundamental que compreendamos as representações internas que orientam as suas decisões.”

A Antrópica não respondeu imediatamente Descriptografar pedido de comentário.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *