Decrypt logoSource: Decrypt

Anthropic lançou Claude Opus 4.5 em Segunda-feiracompletando sua família de três modelos e marcando o terceiro grande lançamento da empresa em apenas dois meses. O novo modelo principal reivindica o primeiro lugar nos benchmarks de codificação, ao mesmo tempo que reduz drasticamente os preços.

O lançamento encerra um lançamento rápido que começou com Claude Sonnet 4.5 no final de setembro e continuou com Claude Haiku 4.5 em outubro. Agora com a Opus se juntando a seus irmãos, a Anthropic oferece aos desenvolvedores um kit de ferramentas completo: Opus para trabalhos de produção complexos, Sonnet para tarefas diárias e Haiku para tarefas relacionadas à velocidade e eficiência que exigem lógica simples.

Claude Opus 4,5 obteve 80,9% em Banco SWE verificadoum benchmark que testa tarefas de engenharia de software do mundo real. Isso supera o GPT-5.1-Codex-Max da OpenAI com 77,9% e o Gemini 3 Pro do Google com 76,2%. A Anthropic afirma que a Opus superou todos os candidatos humanos em seu exame interno de engenharia de desempenho – uma avaliação de duas horas projetada para avaliar o julgamento sob pressão.

Houve uma corrida entre gigantes da IA ​​​​para terminar o ano no topo das tabelas de classificação. O Google lançou o Gemini 3 Pro em 18 de novembro, posicionando-o como um avanço no raciocínio multimodal. A OpenAI respondeu no dia seguinte com GPT-5.1-Codex-Max.

A resposta da Anthropic com o Opus veio poucos dias depois, mas chegou com um gancho: preços de US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída, o que representa um corte de 67% em relação ao modelo anterior do Opus.

Os modelos Qwen do Alibaba acrescentam outra dimensão à corrida. A empresa lançou o Qwen2.5-Max no final de janeiro com mais de 20 trilhões de tokens de treinamento, alegando que supera o DeepSeek-V3 nos principais benchmarks. Qwen3-Max, lançado em setembro com mais de 1 trilhão de parâmetros, ocupa o terceiro lugar globalmente no LMArena e se destaca em diferentes tarefas como pesquisa profundaraciocínio multimodal ou fluxos de trabalho em idiomas orientais. Embora os modelos Qwen permaneçam relativamente obscuros nos mercados ocidentais, eles representam o impulso da China para a autossuficiência em IA em meio às restrições à exportação de chips dos EUA

Esse preço fica entre o mais novo GPT-5.1 da OpenAI (US$ 1,25/US$ 10) e o antigo Opus 4.1 da Anthropic (US$ 15/US$ 75), embora ainda seja mais caro do que US$ 2/US$ 12 do Gemini 3 Pro. A redução sinaliza a pressão do mercado, à medida que os principais laboratórios de IA competem não apenas em capacidade, mas também em tornar a inteligência de fronteira economicamente viável para implantação em escala.

A oferta mais recente de Claude ainda é mais cara do que muitos concorrentes asiáticos, mas também é um pouco mais capaz. Assim, os usuários agora têm a capacidade de escolher entre eficiência de custos ou capacidade técnica pura.

Soneto 4.5, lançado em 30 de setembrotrouxe codificação de última geração e recursos de agente a um custo moderado e já era melhor que o Opus 4.1 em tarefas específicas. O Haiku 4.5 mais simples foi lançado em 15 de outubro. O Opus 4.5 agora está no topo, lidando com o raciocínio mais difícil e as tarefas mais demoradas.

Semelhante ao Sonnet e ao GPT-5, Claude Opus 4.5 usa o que a Anthropic chama de arquitetura de “raciocínio híbrido” – um modelo único treinado para inferência direta e processamento de cadeia de pensamento. Ele suporta uma janela de contexto de 200.000 tokens e pode gerar até 64.000 tokens. O limite de conhecimento do modelo é março de 2025, um pouco antes da data de janeiro do Sonnet.

Desenvolvedor Simon Willison testado Opus 4.5 extensivamente no fim de semana, usando-o para refatorar um de seus projetos. O modelo administrou 20 commits em 39 arquivos, adicionando 2.022 linhas e removendo outras 1.173. “É claramente um novo modelo excelente”, escreveu Willison, embora tenha notado que reverter para o Sonnet 4.5 posteriormente não reduziu drasticamente sua produtividade.

“Não estou dizendo que o novo modelo não seja uma melhoria em relação ao Sonnet 4.5 – mas não posso dizer com confiança que os desafios que apresentei foram capazes de identificar uma diferença significativa nas capacidades entre os dois”, escreveu ele.

Theo Browne, desenvolvedor, YouTuber e CEO da plataforma de IA T3 Chat chamou Claude Opus 4.5 de “insano”, acrescentando um revisão de vídeo que é “definitivamente o melhor modelo de codificação já feito”.

O cenário competitivo tornou-se cada vez mais lotado. O Gemini 3 Pro do Google dominou as manchetes na semana passada, marcando 1.501 pontos no LMArena e recebendo elogios do CEO da Salesforce, Marc Benioff, que disse estar trocando o ChatGPT pelo modelo do Google. Esse anúncio fez com que as ações da Alphabet subissem mais de 6% e supostamente abalou o CEO da OpenAI, Sam Altman, que disse aos colegas que Gemini criaria “ventos contrários econômicos temporários”.

Microsoft e Nvidia anunciado investimentos multibilionários na Anthropic na semana passada, aumentando a avaliação da startup para aproximadamente US$ 350 bilhões. Os acordos incluem integração expandida do Azure e infraestrutura desenvolvida pela Nvidia para treinamento e implantação de modelos Claude.

Opus 4.5 está disponível imediatamente via API da AntrópicoAWS Bedrock, Google Vertex AI e os aplicativos Claude para web e desktop.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *