Decrypt logoAnthropic. Image: Decrypt/Shutterstock

Em resumo

  • A Anthropic admitiu que suas salvaguardas invisíveis de desenvolvimento do LLM eram “a troca errada” e irá substituí-las por alternativas visíveis ao Claude Opus 4.8, a partir desta semana.
  • As solicitações sinalizadas na API agora retornarão um motivo para sua recusa, em vez de entregar silenciosamente uma resposta degradada.
  • Tornar as salvaguardas visíveis significa que será mais fácil contorná-las.

A Anthropic passou cerca de 48 horas como a vilã da semana da indústria de IA antes de piscar.

A empresa lançou Claude Fable 5 esta semana para reação imediata sobre uma salvaguarda enterrada em seu cartão de sistema de 319 páginas: o modelo, o primeiro da nova classe Mythos da empresa, degradaria secretamente suas próprias respostas para usuários que suspeitavam estar construindo modelos de IA concorrentes – sem aviso, sem mensagem de retorno, apenas resultados silenciosamente piores. Na quinta-feira, a Anthropic estava se desculpando.

“As salvaguardas invisíveis podem ser direcionadas de forma mais restrita, permitindo-nos entregar rapidamente com muito poucos falsos positivos. Optamos por salvaguardas invisíveis por esse motivo – e essa foi a troca errada”, postou a empresa no X. “Você deve ter visibilidade das salvaguardas que temos em vigor e por quê.”

“Lamentamos por não conseguir o equilíbrio certo.”

A partir desta semana, as solicitações sinalizadas serão encaminhadas visivelmente para Claude Opus 4.8, um modelo menos capaz, em vez de entregar silenciosamente a saída degradada do Fable. Os usuários da API receberão um motivo declarado quando uma solicitação for recusada. A Anthropic afirma que as notificações substitutas do lado do servidor serão lançadas nos próximos dias.

O que realmente estava acontecendo

Para leitores não técnicos, aqui está o motivo da controvérsia. Claude Fable 5 já tinha salvaguardas visíveis para segurança cibernética e pesquisa biológica – se você perguntasse algo que desarmasse esses filtros, receberia uma notificação de que sua solicitação estava sendo redirecionada para o modelo Opus 4.8 mais antigo. Você sabia que algo havia mudado. Você pode ajustar seu prompt ou usar uma ferramenta diferente.

No entanto, estas salvaguardas eram demasiado extremas, observaram alguns bio-investigadores.

A salvaguarda do desenvolvimento LLM, no entanto, funcionou de forma diferente. Se o Fable 5 detectasse que você estava trabalhando em coisas como pré-treinamento de sistemas de IA, construção de infraestrutura de treinamento distribuída ou projeto de chips de aprendizado de máquina, o modelo alteraria silenciosamente seu próprio comportamento – por meio de modificação imediata, vetores de direção ou ajustes de parâmetros – para lhe dar uma resposta pior sem avisar. Você obteria uma resposta. Simplesmente não seria do Fable 5 pelo qual você pagou.

Fable 5 é anunciado como a face pública do modelo mais capaz da classe Mythos da Anthropic, e os pesquisadores que o usaram para trabalhos legítimos de aprendizado de máquina não tinham como saber que seus resultados estavam contaminados. Um experimento fracassado parece o mesmo, quer sua hipótese esteja errada ou o modelo tenha sido silenciosamente informado para ter desempenho inferior. Esse é o problema de reprodutibilidade que levou a comunidade de pesquisa de IA ao colapso total.

O problema era que o classificador não era tão preciso. A empresa de pesquisa de IA SemiAnalysis foi uma das primeiras a denunciá-los publicamente depois de ver sua pesquisa de inferência de GPU ser sinalizada.

O problema na correção

A reversão da Antrópico vem com uma admissão direta da compensação que está aceitando. Tornar as salvaguardas visíveis torna-as mais fáceis de contornar, o que significa que o classificador tem de lançar uma rede mais ampla para permanecer eficaz.

Mais falsos positivos – trabalho legítimo de aprendizado de máquina que é detectado e redirecionado – estão surgindo enquanto a empresa ajusta seus sistemas. A Anthropic disse que está trabalhando para reduzir os falsos positivos “o mais rápido possível”, mas não ofereceu nenhum cronograma.

A empresa também está aplicando a mesma limpeza aos seus classificadores de biologia e segurança cibernética, que geraram suas próprias reclamações sobre a sinalização de solicitações de pesquisa inofensivas.

Dito isto, a preocupação restante é que a Anthropic não está a abandonar esta categoria de restrições – está apenas a torná-las visíveis. Para aqueles que acreditam que as próprias restrições estão erradas, o pedido de desculpas de quinta-feira é uma solução parcial. Fable 5 permanece gratuito nos planos Pro, Max, Team e Enterprise até 22 de junho, após o qual muda apenas para créditos de uso de API

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *