Anthropic pede desculpas pela censura secreta de Claude Fable 5

Em resumo

A Anthropic admitiu que suas salvaguardas invisíveis de desenvolvimento do LLM eram “a troca errada” e irá substituí-las por alternativas visíveis ao Claude Opus 4.8, a partir desta semana.
As solicitações sinalizadas na API agora retornarão um motivo para sua recusa, em vez de entregar silenciosamente uma resposta degradada.
Tornar as salvaguardas visíveis significa que será mais fácil contorná-las.

A Anthropic passou cerca de 48 horas como a vilã da semana da indústria de IA antes de piscar.

A empresa lançou Claude Fable 5 esta semana para reação imediata sobre uma salvaguarda enterrada em seu cartão de sistema de 319 páginas: o modelo, o primeiro da nova classe Mythos da empresa, degradaria secretamente suas próprias respostas para usuários que suspeitavam estar construindo modelos de IA concorrentes – sem aviso, sem mensagem de retorno, apenas resultados silenciosamente piores. Na quinta-feira, a Anthropic estava se desculpando.

Estamos implementando mudanças para tornar visíveis as salvaguardas do Fable 5 para o desenvolvimento de LLM de fronteira.

A partir desta semana, as solicitações sinalizadas retornarão visivelmente ao Opus 4.8 – o mesmo que nossas proteções cibernéticas e biológicas. Você verá isso toda vez que isso acontecer. Na API, qualquer sinalizado…

-ClaudeDevs (@ClaudeDevs) 11 de junho de 2026

“As salvaguardas invisíveis podem ser direcionadas de forma mais restrita, permitindo-nos entregar rapidamente com muito poucos falsos positivos. Optamos por salvaguardas invisíveis por esse motivo – e essa foi a troca errada”, postou a empresa no X. “Você deve ter visibilidade das salvaguardas que temos em vigor e por quê.”

“Lamentamos por não conseguir o equilíbrio certo.”

A partir desta semana, as solicitações sinalizadas serão encaminhadas visivelmente para Claude Opus 4.8, um modelo menos capaz, em vez de entregar silenciosamente a saída degradada do Fable. Os usuários da API receberão um motivo declarado quando uma solicitação for recusada. A Anthropic afirma que as notificações substitutas do lado do servidor serão lançadas nos próximos dias.

O que realmente estava acontecendo

Para leitores não técnicos, aqui está o motivo da controvérsia. Claude Fable 5 já tinha salvaguardas visíveis para segurança cibernética e pesquisa biológica – se você perguntasse algo que desarmasse esses filtros, receberia uma notificação de que sua solicitação estava sendo redirecionada para o modelo Opus 4.8 mais antigo. Você sabia que algo havia mudado. Você pode ajustar seu prompt ou usar uma ferramenta diferente.

No entanto, estas salvaguardas eram demasiado extremas, observaram alguns bio-investigadores.

A salvaguarda do desenvolvimento LLM, no entanto, funcionou de forma diferente. Se o Fable 5 detectasse que você estava trabalhando em coisas como pré-treinamento de sistemas de IA, construção de infraestrutura de treinamento distribuída ou projeto de chips de aprendizado de máquina, o modelo alteraria silenciosamente seu próprio comportamento – por meio de modificação imediata, vetores de direção ou ajustes de parâmetros – para lhe dar uma resposta pior sem avisar. Você obteria uma resposta. Simplesmente não seria do Fable 5 pelo qual você pagou.

Fable 5 é anunciado como a face pública do modelo mais capaz da classe Mythos da Anthropic, e os pesquisadores que o usaram para trabalhos legítimos de aprendizado de máquina não tinham como saber que seus resultados estavam contaminados. Um experimento fracassado parece o mesmo, quer sua hipótese esteja errada ou o modelo tenha sido silenciosamente informado para ter desempenho inferior. Esse é o problema de reprodutibilidade que levou a comunidade de pesquisa de IA ao colapso total.

O problema era que o classificador não era tão preciso. A empresa de pesquisa de IA SemiAnalysis foi uma das primeiras a denunciá-los publicamente depois de ver sua pesquisa de inferência de GPU ser sinalizada.

ÚLTIMAS NOTÍCIAS: O modelo mais recente da Anthropic NÃO irá ajudá-lo se achar que sua pesquisa/engenharia de ML é interessante e/ou degradará secretamente seu QI para que o engenheiro médio não perceba. Já estamos vendo a moderação do modelo mais recente do Anthropic filtrando nossa GPU… pic.twitter.com/9sa95cCSvS

– SemiAnalysis (@SemiAnalysis_) 9 de junho de 2026

O problema na correção

A reversão da Antrópico vem com uma admissão direta da compensação que está aceitando. Tornar as salvaguardas visíveis torna-as mais fáceis de contornar, o que significa que o classificador tem de lançar uma rede mais ampla para permanecer eficaz.

Mais falsos positivos – trabalho legítimo de aprendizado de máquina que é detectado e redirecionado – estão surgindo enquanto a empresa ajusta seus sistemas. A Anthropic disse que está trabalhando para reduzir os falsos positivos “o mais rápido possível”, mas não ofereceu nenhum cronograma.

A empresa também está aplicando a mesma limpeza aos seus classificadores de biologia e segurança cibernética, que geraram suas próprias reclamações sobre a sinalização de solicitações de pesquisa inofensivas.

Dito isto, a preocupação restante é que a Anthropic não está a abandonar esta categoria de restrições – está apenas a torná-las visíveis. Para aqueles que acreditam que as próprias restrições estão erradas, o pedido de desculpas de quinta-feira é uma solução parcial. Fable 5 permanece gratuito nos planos Pro, Max, Team e Enterprise até 22 de junho, após o qual muda apenas para créditos de uso de API

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Anthropic pede desculpas pela censura secreta de Claude Fable 5 – mas a solução tem um problema

ByJose Antonio Lanz

Em resumo

O que realmente estava acontecendo

O problema na correção

Resumo Diário Boletim informativo

By Jose Antonio Lanz

Leia Também

Mercado cripto registra US$ 435 milhões em liquidações enquanto os preços se mantêm firmes

Tether: Por que o acordo do USDT com o Quênia poderia expandir a criptografia em toda a África

Apenas 9 exchanges de criptomoedas fecharam em 2026 – Então, onde está o verdadeiro estresse do Bitcoin?

Deixe um comentário Cancelar resposta

Leia Também:

Mercado cripto registra US$ 435 milhões em liquidações enquanto os preços se mantêm firmes

Tether: Por que o acordo do USDT com o Quênia poderia expandir a criptografia em toda a África

Apenas 9 exchanges de criptomoedas fecharam em 2026 – Então, onde está o verdadeiro estresse do Bitcoin?

Jito enfrenta redução de TVL de US$ 59 milhões – A recuperação do JTO ainda é possível?