Anthropic's Claude AI. Image: Shutterstock/Decrypt

Em resumo

  • A Anthropic acaba de lançar seu modelo Opus mais capaz, Claude Opus 4.7.
  • O modelo oferece fortes ganhos de benchmark em codificação e raciocínio, mas não é o controverso modelo Mythos que a Anthropic oferece para parceiros selecionados.
  • Claude Opus 4.7 mostra uma cadeia de pensamento visível e um uso incomumente alto de tokens.

A Anthropic lançou hoje o Claude Opus 4.7, chamando-o de o modelo Opus mais capaz da empresa até agora. Nós testamos e o marketing está alinhado com os resultados.

“Nosso modelo mais recente, Claude Opus 4.7, já está disponível para todos.” a empresa disse em seu anúncio oficial. “Os usuários relatam ser capazes de entregar seu trabalho de codificação mais difícil – o tipo que antes precisava de supervisão rigorosa – para o Opus 4.7 com confiança.”

O modelo chega após semanas de reclamações de usuários sobre o Opus 4.6 supostamente perdendo sua vantagem. Desenvolvedores do GitHub, Reddit e X documentaram o que chamaram de “redução da IA” – a sensação de que o modelo pelo qual estavam pagando havia piorado silenciosamente. Como informamos ontem, a Anthropic já estava preparando o 4.7 enquanto esperava algo muito mais poderoso que não pode ser divulgado publicamente: Claude Mythos.

Quando o anúncio foi lançado esta manhã, os usuários do X que falaram mais alto sobre a degradação do 4.6 responderam rapidamente com sarcasmo: o Opus 4.7, alguns brincaram, parecia o “primeiro Opus 4.6” – a versão que as pessoas realmente gostavam, antes de acreditarem que a Anthropic silenciosamente baixou os dials. A Anthropic, é claro, negou a degradação dos pesos dos modelos para gerenciar a demanda computacional.

Os benchmarks respaldam as afirmações da Anthropic. No SWE-bench Multilingual, um benchmark que mede habilidades de codificação, o Opus 4.7 obteve 80,5% contra 77,8% do 4.6.

No GDPVal-AA, uma avaliação de terceiros de trabalho de conhecimento economicamente valioso nos domínios financeiro e jurídico, 4,7 obteve 1.753 Elo contra 1.674 do GPT-5.4 – uma margem clara sobre o concorrente mais próximo.

O raciocínio do documento via OfficeQA Pro mostrou o salto mais acentuado: 80,6% para 4,7 versus 57,1% para 4,6, com GPT-5.4 e Gemini 3.1 Pro atrás de 51,1% e 42,9%, respectivamente. A coerência de longo prazo no Vending-Bench 2, um benchmark que mede quão bons modelos são em contextos longos e tarefas de raciocínio como possuir um negócio de vendas, registrou saldo monetário de US$ 10.937 contra US$ 8.018 para 4,6 – um indicador de quão bem o modelo sustenta o comportamento útil durante longas execuções autônomas.

A segurança cibernética é a única área onde a Antrópica se conteve deliberadamente. O Opus 4.7 é lançado com proteções automatizadas que detectam e bloqueiam solicitações de segurança cibernética proibidas ou de alto risco. A Antrópica confirmou que “experimentou esforços para reduzir diferencialmente” as capacidades cibernéticas do 4.7 durante o treinamento.

Os profissionais de segurança podem se inscrever em um novo Programa de Verificação Cibernética para acessar esses recursos. Este é o teste da empresa para as salvaguardas que eventualmente precisará implantar com modelos da classe Mythos em escala.

Opus 4.7 é o modelo mais poderoso publicamente disponível. Mythos Preview, o verdadeiro modelo de fronteira da Anthropic, permanece restrito a empresas de segurança controladas. Como o AI Security Institute do Reino Unido avaliou na semana passada, Mythos foi a primeira IA a completar “The Last Ones”, uma simulação de ataque à rede corporativa de 32 etapas que normalmente leva 20 horas para equipes vermelhas humanas.

Opus 4.7 não é isso. Mas é o modelo voltado ao público que a Anthropic usará para aprender como essas grades de segurança se comportam na natureza antes de ousar lançar algo mais assustador.

No lado do token, o Opus 4.7 usa um tokenizer atualizado que pode mapear a mesma entrada para aproximadamente 1,0x–1,35x mais tokens, dependendo do tipo de conteúdo. O modelo também raciocina mais em níveis de esforço mais elevados, especialmente em turnos posteriores em fluxos de trabalho de agente. A Anthropic publicou um guia de migração para desenvolvedores que planejam atualizar do 4.6.

Executamos nosso próprio teste – o mesmo prompt de construção de jogo que usamos para avaliar todos os lançamentos de modelos importantes. O Opus 4.7 produziu o melhor resultado que já obtivemos em qualquer modelo. O jogo visualmente mais polido, a curva de dificuldade mais genuinamente desafiadora, a melhor mecânica e as telas de vitórias e derrotas mais criativas. Parecia gerar níveis de forma processual, e nenhum deles parecia impossível – um equilíbrio que desequilibrou outros modelos repetidamente.

Você pode testar o jogo aqui

Emerge: The Game, criado por Claude Opus 4.7

Não foi tiro zero. O Opus 4.6 passou no mesmo teste sem nenhuma correção. O Opus 4.7 precisava de uma rodada de correções de bugs. Isso pode ser um azar – uma única iteração é uma amostra pequena – mas vale a pena observar. O que mais nos impressionou foi como o modelo lidou com essa rodada: ele detectou bugs adicionais por conta própria, sem ser guiado até eles. O Opus 4.6 normalmente esperava que lhe dissessem onde procurar.

O Xiaomi MiMo v2 Pro foi o modelo com melhores resultados até agora, mas ao contrário do Opus, produziu um resultado funcional sem a necessidade de mais de uma iteração. Alguns podem argumentar que era mais agradável visualmente e tinha trilha sonora, o que era uma vantagem, mas a lógica e a física do jogo ficaram aquém do Opus após uma única rodada de correções de bugs.

Emerge: The Game, criado por Xiaomi MiMo v2 Pro

Além disso, o modelo da Xiaomi produz esses resultados por uma fração do custo cobrado pela Anthropic, o que pode ser algo importante a se considerar em projetos sérios.

O comportamento da cadeia de pensamento também era diferente à primeira vista. Ao contrário do 4.6, que colocou seu raciocínio em uma caixa de pensamento separada (o que significa que não fazia parte da resposta final), o Opus 4.7 trouxe à tona sua cadeia de pensamento como parte da saída do texto principal. O raciocínio era visível e rastreável, não escondido atrás de uma abstração de UI, o que é uma vantagem para quem valoriza a transparência. Não está claro se a Anthropic manterá esse comportamento ou eventualmente o reduzirá a um bloco oculto novamente.

O uso do token foi diferente de tudo que havíamos visto antes. Pela primeira vez em nossos testes, uma única sessão esgotou toda a nossa cota de tokens. Observando o modelo funcionar, vimos ele completar um rascunho completo – então escrever o que parecia ser o jogo inteiro novamente do zero sob o rótulo “Reescrever Emerge com correções de bugs e melhorias”, seguido por uma segunda passagem chamada “Criar um Emerge reescrito com correções de bugs e melhorias”.

Isso significa que, se você gosta de codificação séria, será forçado a atualizar seu plano, pagar muito em tokens de API ou esperar muito tempo até que o Anthropic redefina suas cotas de uso. Ou você pode simplesmente usar um modelo comparável que cobre muito menos

Opus 4.6 nunca fez isso. No entanto, é consistente com o que a Anthropic alerta no guia de migração: mais tokens de saída, especialmente em tarefas de agente em níveis de esforço mais elevados.

Opus 4.7 está disponível hoje em Claude.ai, Claude API, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry. O preço permanece inalterado em relação a 4.6: US$ 5 por milhão de tokens de entrada, US$ 25 por milhão de tokens de saída. Os desenvolvedores podem acessá-lo através da string claude-opus-4-7.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *