Decrypt logoAnthropic co-founder and CEO Dario Amodei. Image: Decrypt/Anthropic

Em resumo

  • A pontuação de depuração do BridgeBench para Claude Fable 5 caiu de 86,2 para 25,9 após sua reintegração em 1º de julho – mas o colapso veio do classificador de segurança encaminhando a maioria das tarefas para o Opus 4.8, e não do modelo ficando mais burro.
  • Arena.AI realizou milhares de votos cegos de preferência humana e descobriu que o desempenho do Fable 5 era praticamente estável em relação à versão de junho, com algumas categorias – documento e texto de especialista – realmente melhorando após a reintegração.
  • A Anthropic reconheceu que seus novos classificadores produzirão falsos positivos na codificação e depuração de rotina e afirma que o sistema será refinado ao longo do tempo – mas não forneceu nenhum cronograma.

Claude Fable 5 voltou online em 1º de julho, e o veredicto nas redes sociais não foi bom: quebrado, nerfado, lobotomizado, baixo desempenho, não é o mesmo modelo.

As críticas dos usuários foram retumbantes. Então, dois benchmarks – BridgeBench AI e Arena AI – publicaram dados no mesmo dia e chegaram a conclusões opostas. Um deles encontrou uma grave degradação da qualidade dos resultados, o outro encontrou diferenças tão pequenas que podem não ser suficientemente relevantes para serem notadas.

Ambos, à sua maneira, estão corretos.

A versão curta: o modelo não ficou mais burro. O porteiro à sua frente ficou muito mais agressivo. Essa distinção é muito importante dependendo da finalidade para a qual você usa o Fable.

O que o BridgeBench realmente mediu

BridgeMind – uma plataforma de avaliação de IA – executou novamente seu conjunto completo de codificação na versão de 1º de julho do Fable 5 no dia em que ele voltou.

O BridgeBench testa tarefas de codificação do mundo real em categorias, incluindo depuração, refatoração e resistência a alucinações, com pontuação de 0 a 100 em quão bem o modelo completa cada categoria. Os resultados foram sombrios no papel: a depuração caiu de 86,2 para 25,9, a refatoração de 73,6 para 38,4 e a resistência à alucinação de 75,9 para 61,7.

O problema está na metodologia. Das 12 tarefas de depuração TypeScript, apenas três realmente alcançaram Fable 5. As nove restantes foram interceptadas pelo novo classificador de segurança da Anthropic e redirecionadas para Claude Opus 4.8 – e o BridgeBench pontua cada fallback como zero, porque o modelo que respondeu não era o que estava sendo avaliado.

O classificador, implantado como condição para a reintegração do Fable, foi treinado para bloquear a técnica de jailbreak relatada pela Amazon – que fez com que o Fable 5 identificasse e demonstrasse vulnerabilidades de software. Funciona. Ele também captura muitas coisas que não deveria. A depuração do TypeScript parece o suficiente com “trabalho de segurança” para o classificador, de modo que o substituto é acionado constantemente.

O que Arena.AI realmente mediu

Arena.AI, uma plataforma de benchmarking e comparação LLM, fez a mesma pergunta através de lentes diferentes. A plataforma coleta milhares de votos cegos de preferência humana em diversas categorias – texto, visão, documento, código e agente – e classifica modelos usando a pontuação Elo, o sistema de classificação derivado do xadrez que se ajusta à incerteza estatística em milhares de confrontos diretos. Quando dois modelos se enfrentam anonimamente e os humanos escolhem um vencedor, a pontuação reflete a qualidade percebida real, e não o roteamento da infraestrutura.

A comparação antes e depois mostrou que Fable 5 se manteve firme em grande parte. O código de front-end caiu de 1650 para 1623 Elo – uma diferença que a Arena observou está dentro do intervalo de confiança à medida que os dados continuam se acumulando. O desempenho do documento melhorou em 34 pontos. O texto do especialista subiu 25. A escrita criativa aumentou ligeiramente em 9. As categorias que diminuíram: Codificação em -18, prompts rígidos em -3 – são precisamente onde o classificador tem maior probabilidade de interceptar o prompt antes que Fable possa responder.

Em outras palavras, quando o Fable 5 realmente lida com a tarefa, ele ainda funciona como o Fable 5. A frustração no X não é sobre um modelo pior, mas mais sobre pagar por um modelo que muitas vezes não é o que responde.

Quem é afetado, quem não é

Usuários em geral que realizam redação criativa, análise de documentos, pesquisas e consultas de texto de nível especializado provavelmente notarão pouca ou nenhuma diferença. Essas são as categorias onde Arena.AI mostra desempenho estável ou melhorado. Se houver alguma melhoria, poderá ser demasiado pequena para ser notada, especialmente em tarefas subjetivas e qualitativas, como a escrita criativa, onde é difícil medir totalmente os resultados.

Então, basicamente, escritores, pesquisadores e analistas obterão o Fable 5 que esperavam. Os desenvolvedores são uma história diferente.

Qualquer pessoa que trabalhe em território adjacente à segurança – gerenciamento de memória de codificação, qualquer coisa que toque palavras como “vulnerabilidade”, “exploração”, “gancho” ou mesmo “conserto” – encontrará o substituto regularmente.

A diferença entre o colapso do BridgeBench e a estabilidade da Arena se resume ao tipo de tarefa. O BridgeBench carrega seu conjunto exatamente com o tipo de prompts de reparo e depuração de código que acionam o novo classificador. Os eleitores humanos da Arena pedem uma mistura muito mais ampla de coisas, e a maioria delas não parece um código de exploração para uma camada de segurança.

A Anthropic disse que os classificadores irão melhorar com o tempo, reconhecendo que atualmente lançam uma rede muito ampla. A proibição original ocorreu depois que pesquisadores da Amazon encontraram uma técnica para fazer com que o Fable identificasse e demonstrasse vulnerabilidades de software – e o governo dos EUA tratou isso como uma ameaça à segurança nacional. A solução foi tornar o classificador conservador o suficiente para capturar isso e tudo ao seu redor e, em seguida, ajustá-lo mais tarde.

A Antrópica não deu nenhuma data prevista para quando isso acontecerá.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *