Decrypt logoImage: Decrypt

Em resumo

  • O Anthropic lançou o Claude Sonnet 4.5, chamando -o de melhor modelo de codificação.
  • O modelo obteve 77,2% no SWE-banch verificado, subindo para 82% com computação paralela.
  • Anthrópica reivindicou melhorias sobre o alinhamento e a segurança, mas os jailbreaks o quebraram em minutos.

O Anthropic lançou o Claude Sonnet 4.5 na segunda -feira, chamando -o de “o melhor modelo de codificação do mundo” e lançando um conjunto de novas ferramentas de desenvolvedor ao lado do modelo. A empresa disse que o modelo pode se concentrar por mais de 30 horas em tarefas complexas de codificação em várias etapas e mostra ganhos nos recursos de raciocínio e matemáticos.

O modelo obteve 77,2% no SWE-banch Verificado, uma referência que mede as habilidades de codificação de software do mundo real, de acordo com o anúncio da Anthropic. Essa pontuação aumenta para 82% ao usar computação de tempo de teste paralela. Isso coloca o novo modelo à frente das melhores ofertas do OpenAI e do Google, e até do Claude 4.1 Opus da Anthropic (de acordo com o esquema de nomeação da empresa, Haiku é um modelo pequeno, o soneto é de tamanho médio e o Opus é o modelo mais pesado e mais poderoso da família).

Imagem: Antrópico

O Claude Sonnet 4.5 também lidera o Osworld, um teste de referência de modelos de IA em tarefas de computador do mundo real, pontuando 61,4%. Há quatro meses, o Claude Sonnet 4 manteve a liderança em 42,2%. O modelo mostra recursos aprimorados nos benchmarks de raciocínio e matemática e especialistas em campos de negócios específicos como finanças, direito e medicina.

Tentamos o modelo, e nosso primeiro teste rápido achou capaz de gerar nosso jogo usual de “AI vs jornalistas” usando o acumulação de zero tiro sem iterações, ajustes ou tentativas. O modelo produziu código funcional mais rápido que o Claude 4.1 Opus, mantendo a saída de alta qualidade. O aplicativo que criou mostrou polimento visual comparável às saídas do OpenAI, uma alteração das versões Claude anteriores que normalmente produziam interfaces menos refinadas.

A Anthropic lançou vários novos recursos com o modelo. O código Claude agora inclui pontos de verificação, que economizam progresso e permitem que os usuários voltem aos estados anteriores. A empresa atualizou a interface do terminal e enviou uma extensão de código nativo vs. A API Claude ganhou um recurso de edição de contexto e uma ferramenta de memória que permite que os agentes funcionem mais e lidam com maior complexidade. Os aplicativos Claude agora incluem execução de código e criação de arquivos para planilhas, slides e documentos diretamente nas conversas.

Os preços permanecem inalterados em relação ao Soneto 4 Claude 4 a US $ 3 por milhão de tokens de entrada e US $ 15 por milhão de tokens de produção. Todas as atualizações de código Claude estão disponíveis para todos os usuários, enquanto as atualizações da plataforma de desenvolvedores da Claude, incluindo o agente SDK, estão disponíveis para todos os desenvolvedores.

Antrópico também chamou de Soneto Claude 4.5 “Nosso modelo de fronteira mais alinhado até agora”, dizendo que fez melhorias substanciais na redução de comportamentos como silcofância, engano, busca de poder e pensamento ilusório encorajador. A empresa também disse que fez progressos na defesa de ataques rápidos de injeção, que identificou como um dos riscos mais graves para os usuários de capacidades de uso agêntico e de computador.

Obviamente, foi preciso Plínio – o engenheiro rápido da IA ​​mais famoso do mundo – alguns minutos para o jailbreak e gerar receitas de drogas como se fosse a coisa mais normal do mundo.

O lançamento ocorre quando a concorrência se intensifica entre as empresas de IA para capacidades de codificação. O Openai lançou o GPT-5 no mês passado, enquanto os modelos do Google competem em vários benchmarks. Isso pode ser um choque para alguns mercados de previsão, que até algumas horas atrás estavam quase completamente certos de que Gêmeos seria o melhor modelo do mês.

Pode ser uma corrida contra o tempo. No momento, o modelo não aparece no ranking, mas a LM Arena anunciou que já estava disponível para classificação. Dependendo do número de interações, o resultado de amanhã pode ser bastante surpreendente, considerando que Claude 4.1 Opus em segundo lugar e Claude 4,5 sonetos é muito melhor.

O Antrópico também está lançando uma prévia de pesquisa temporária chamada “Imagine With Claude”, disponível para assinantes do MAX por cinco dias. No experimento, Claude gera software em tempo real sem funcionalidade predeterminada ou código pré -escrito, respondendo e adaptando -se às solicitações à medida que os usuários interagem.

“O que você vê é Claude criando em tempo real”, disse a empresa. Antrópico o descreveu como uma demonstração do que é possível ao combinar o modelo com a infraestrutura apropriada.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *