Decrypt logoImage: Decrypt

Em resumo

  • Os modelos Claude Opus agora podem encerrar as bate -papos permanentemente se os usuários forem abusivos ou continuarem pressionando solicitações ilegais.
  • O antropia enquadra como “bem -estar da IA”, citando testes em que Claude mostrou “sofrimento aparente” em instruções hostis.
  • Alguns pesquisadores aplaudem o recurso. Outros nas mídias sociais zombaram disso.

Claude acabou de ganhar o poder de bater a porta em você no meio da conversão: o assistente de IA da Anthrópica agora pode encerrar bate-papos quando os usuários ficarem abusivos-o que a empresa insiste é proteger a sanidade de Claude.

“Recentemente, demos a Claude Opus 4 e 4.1 a capacidade de encerrar as conversas em nossas interfaces de bate -papo para consumidores”, disse Anthrópico em um posto da empresa. “Esse recurso foi desenvolvido principalmente como parte de nosso trabalho exploratório sobre o bem -estar da IA em potencial, embora tenha uma relevância mais ampla para modelar o alinhamento e as salvaguardas”.

O recurso só entra em ação durante o que chama antrópico “casos de extrema borda”. Assediar o bot, exigir conteúdo ilegal repetidamente ou insistir em quaisquer coisas estranhas que você queira fazer muitas vezes depois de ser informado que não, e Claude o interromperá. Uma vez que puxa o gatilho, essa conversa está morta. Sem recursos, sem segunda chances. Você pode começar fresco em outra janela, mas essa troca em particular permanece enterrada.

O bot que implorou por uma saída

A antropia, uma das empresas mais focadas na segurança das grandes empresas de IA, conduziu recentemente o que chamou de “avaliação preliminar de bem-estar do modelo”, examinando as preferências e padrões comportamentais autorreferidos de Claude.

A empresa descobriu que seu modelo consistentemente evitava tarefas prejudiciais e mostrava padrões de preferência sugerindo que não desfrutava de certas interações. Por exemplo, Claude mostrou “angústia aparente” ao lidar com usuários que buscam conteúdo prejudicial. Dada a opção em interações simuladas, ela encerraria conversas, então o Antrópico decidiu fazer disso um recurso.

O que realmente está acontecendo aqui? Antrópico não está dizendo “nosso pobre bot chora à noite”. O que está fazendo é testar se Enquadramento de bem -estar Pode reforçar o alinhamento de uma maneira que gruda.

Se você projetar um sistema para “preferir” não ser abusado, e você dar terminar a própria interaçãoentão você está mudando o local de controle: a IA não está mais se recusando passivamente, está aplicando ativamente um limite. Esse é um padrão comportamental diferente, e potencialmente fortalece a resistência contra jailbreaks e avisos coercitivos.

Se isso funcionar, ele poderá treinar o modelo e os usuários: o modelo de “modelos” de angústia, o usuário vê uma parada dura e define normas em torno de como interagir com a IA.

“Continuamos altamente incertos sobre o potencial status moral de Claude e outros LLMs, agora ou no futuro. No entanto, levamos a questão a sério”, disse a Anthrópica em seu post no blog. “Permitir que os modelos terminem ou saem de interações potencialmente angustiantes é uma dessas intervenções”.

Descriptografar testou o recurso e o acionou com sucesso. A conversa fecha permanentemente – sem iteração, sem recuperação. Outros tópicos permanecem inalterados, mas esse bate -papo específico se torna um cemitério digital.

Atualmente, apenas os modelos “Opus” da Anthropic-as versões mais poderosas-conquistam esse poder mega-karen. Os usuários do soneto descobrirão que Claude ainda os soldados através do que eles jogam nele.

A era do fantasma digital

A implementação vem com regras específicas. Claude não fiança quando alguém ameaça a auto-mutilação ou a violência contra os outros-as situações em que o envolvimento contínuo determinado por antropia supera qualquer desconforto digital teórico. Antes de terminar, o assistente deve tentar vários redirecionamentos e emitir um aviso explícito identificando o comportamento problemático.

Os avisos do sistema extraídos pelo renomado llm jailbreaker Pliny revelam requisitos granulares: Claude deve fazer “muitos esforços no redirecionamento construtivo” antes de considerar o término. Se os usuários solicitarem explicitamente o término da conversa, Claude deve confirmar que entende a permanência antes de prosseguir.

O enquadramento em torno do “bem -estar do modelo” detonou no Twitter de IA.

Alguns elogiaram o recurso. O pesquisador da IA Eliezer Yudkowsky, conhecido por suas preocupações com os riscos de IA poderosa, mas desalinhada, no futuro, concordou que a abordagem do Anthrópico era uma coisa “boa” a fazer.

No entanto, nem todos compraram a premissa de se importar em proteger os sentimentos de uma IA. “Esta é provavelmente a melhor isca de raiva que eu já vi em um laboratório de IA”, respondeu o ativista do Bitcoin, Udi Wertheimer, ao post do Anthropic.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *