Claude agora pode irritar sua conversa de IA-por sua própria saúde mental

Em resumo

Os modelos Claude Opus agora podem encerrar as bate -papos permanentemente se os usuários forem abusivos ou continuarem pressionando solicitações ilegais.
O antropia enquadra como “bem -estar da IA”, citando testes em que Claude mostrou “sofrimento aparente” em instruções hostis.
Alguns pesquisadores aplaudem o recurso. Outros nas mídias sociais zombaram disso.

Claude acabou de ganhar o poder de bater a porta em você no meio da conversão: o assistente de IA da Anthrópica agora pode encerrar bate-papos quando os usuários ficarem abusivos-o que a empresa insiste é proteger a sanidade de Claude.

“Recentemente, demos a Claude Opus 4 e 4.1 a capacidade de encerrar as conversas em nossas interfaces de bate -papo para consumidores”, disse Anthrópico em um posto da empresa. “Esse recurso foi desenvolvido principalmente como parte de nosso trabalho exploratório sobre o bem -estar da IA em potencial, embora tenha uma relevância mais ampla para modelar o alinhamento e as salvaguardas”.

O recurso só entra em ação durante o que chama antrópico “casos de extrema borda”. Assediar o bot, exigir conteúdo ilegal repetidamente ou insistir em quaisquer coisas estranhas que você queira fazer muitas vezes depois de ser informado que não, e Claude o interromperá. Uma vez que puxa o gatilho, essa conversa está morta. Sem recursos, sem segunda chances. Você pode começar fresco em outra janela, mas essa troca em particular permanece enterrada.

O bot que implorou por uma saída

A antropia, uma das empresas mais focadas na segurança das grandes empresas de IA, conduziu recentemente o que chamou de “avaliação preliminar de bem-estar do modelo”, examinando as preferências e padrões comportamentais autorreferidos de Claude.

A empresa descobriu que seu modelo consistentemente evitava tarefas prejudiciais e mostrava padrões de preferência sugerindo que não desfrutava de certas interações. Por exemplo, Claude mostrou “angústia aparente” ao lidar com usuários que buscam conteúdo prejudicial. Dada a opção em interações simuladas, ela encerraria conversas, então o Antrópico decidiu fazer disso um recurso.

O que realmente está acontecendo aqui? Antrópico não está dizendo “nosso pobre bot chora à noite”. O que está fazendo é testar se Enquadramento de bem -estar Pode reforçar o alinhamento de uma maneira que gruda.

Se você projetar um sistema para “preferir” não ser abusado, e você dar terminar a própria interaçãoentão você está mudando o local de controle: a IA não está mais se recusando passivamente, está aplicando ativamente um limite. Esse é um padrão comportamental diferente, e potencialmente fortalece a resistência contra jailbreaks e avisos coercitivos.

Se isso funcionar, ele poderá treinar o modelo e os usuários: o modelo de “modelos” de angústia, o usuário vê uma parada dura e define normas em torno de como interagir com a IA.

“Continuamos altamente incertos sobre o potencial status moral de Claude e outros LLMs, agora ou no futuro. No entanto, levamos a questão a sério”, disse a Anthrópica em seu post no blog. “Permitir que os modelos terminem ou saem de interações potencialmente angustiantes é uma dessas intervenções”.

Descriptografar testou o recurso e o acionou com sucesso. A conversa fecha permanentemente – sem iteração, sem recuperação. Outros tópicos permanecem inalterados, mas esse bate -papo específico se torna um cemitério digital.

Atualmente, apenas os modelos “Opus” da Anthropic-as versões mais poderosas-conquistam esse poder mega-karen. Os usuários do soneto descobrirão que Claude ainda os soldados através do que eles jogam nele.

A era do fantasma digital

A implementação vem com regras específicas. Claude não fiança quando alguém ameaça a auto-mutilação ou a violência contra os outros-as situações em que o envolvimento contínuo determinado por antropia supera qualquer desconforto digital teórico. Antes de terminar, o assistente deve tentar vários redirecionamentos e emitir um aviso explícito identificando o comportamento problemático.

Os avisos do sistema extraídos pelo renomado llm jailbreaker Pliny revelam requisitos granulares: Claude deve fazer “muitos esforços no redirecionamento construtivo” antes de considerar o término. Se os usuários solicitarem explicitamente o término da conversa, Claude deve confirmar que entende a permanência antes de prosseguir.

Aqui está a parte recém -atualizada do prompt de sistema Claude para a nova ferramenta “end_conversation”:

“” “
Informações da ferramenta de conversa final
Em casos extremos de comportamento abusivo ou prejudicial do usuário que não envolvem possíveis danos ou danos iminentes a… pic.twitter.com/sx8n9bnqxy

– Plínio, o Liberador 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 15 de agosto de 2025

O enquadramento em torno do “bem -estar do modelo” detonou no Twitter de IA.

Alguns elogiaram o recurso. O pesquisador da IA Eliezer Yudkowsky, conhecido por suas preocupações com os riscos de IA poderosa, mas desalinhada, no futuro, concordou que a abordagem do Anthrópico era uma coisa “boa” a fazer.

No entanto, nem todos compraram a premissa de se importar em proteger os sentimentos de uma IA. “Esta é provavelmente a melhor isca de raiva que eu já vi em um laboratório de IA”, respondeu o ativista do Bitcoin, Udi Wertheimer, ao post do Anthropic.

Esta é provavelmente a melhor isca de raiva que eu já vi em um laboratório de IA. Bom trabalho, caras, aumentam um estagiário

– Udi Wertheimer (@udiwertheimer) 15 de agosto de 2025

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Claude agora pode irritar sua conversa de IA-por sua própria saúde mental

ByJose Antonio Lanz

Em resumo

O bot que implorou por uma saída

A era do fantasma digital

Geralmente inteligente Boletim informativo

By Jose Antonio Lanz

Leia Também

Tether investe valor não revelado na Ledn

Revolut recruta Polygon para remessas de Stablecoin no Reino Unido e no EEE

Previsão de preço de Cardano (ADA) em 2025, 2026 – 2030 e além

Deixe um comentário Cancelar resposta

Leia Também:

Tether investe valor não revelado na Ledn

Revolut recruta Polygon para remessas de Stablecoin no Reino Unido e no EEE

Previsão de preço de Cardano (ADA) em 2025, 2026 – 2030 e além

Sky autoriza até US$ 2,5 bilhões para apoiar projetos de rendimento criptográfico incubados pela Obex