AI mockup. Source: Decrypt

Em resumo

  • O GLM-5.2 está atrás de Claude Opus 4.8 por apenas 1% no FrontierSWE – um benchmark que mede projetos de engenharia autônomos de várias horas – enquanto supera o GPT-5.5 no mesmo teste. Ele é fornecido sob uma licença do MIT sem restrições regionais.
  • O modelo foi construído inteiramente com chips Huawei Ascend, sem nenhum hardware NVIDIA envolvido.
  • A Unsloth AI já lançou quantizações GGUF de 2 bits que reduzem o modelo de 1,51 TB para 238 GB. Você ainda precisará de 256 GB de RAM ou VRAM – mas nesse ponto você poderá executá-lo.

Z.ai abandonou o GLM-5.2 em 16 de junho, prometendo desempenhos de alto nível, superando seu já avançado GLM 5.1.

O laboratório com sede em Pequim, que está na lista de entidades dos EUA desde janeiro de 2025, parece estar a beneficiar das preocupações crescentes sobre a abordagem da América à IA. Na semana passada, a proibição do Anthropic Fable e o lançamento deste novo modelo ajudaram a aumentar o estoque da zAI em 90%, elevando-o a um novo recorde histórico.

O GLM 5.2 tem números que comprovam o hype.

No FrontierSWE – um benchmark que avalia se um agente de IA pode concluir projetos técnicos abertos medidos em horas, abrangendo otimização de sistemas, construção de código em grande escala e pesquisa de ML aplicada, pontuada pela taxa de dominância – o GLM-5.2 atingiu 74,4 contra 75,1 do Claude Opus 4.8. Superou o GPT-5.5 em 72,6. No SWE-bench Pro, que testa a resolução autônoma de problemas reais do GitHub com pontuação como taxa de aprovação, o GLM-5.2 obteve 62,1 contra 58,6 do GPT-5.5 – e superou 58,4 do seu antecessor GLM-5.1 por uma ampla margem.

O salto de qualidade o torna o melhor modelo de código aberto até o momento no Índice de Inteligência de Análise Artificial, que agrega os resultados de 9 pontuações diferentes para avaliar a qualidade geral de um modelo de IA. Os benchmarks do OpenRouter o colocam na mesma categoria do agora banido Claude Fable 5.

O hardware usado para conseguir esse feito é outra parte interessante da história. O GLM-5.2 foi treinado em chips Huawei Ascend – sem Nvidia em nenhum lugar no pipeline. Emad Mostaque, fundador da Stability AI, estimou os custos totais de treinamento em cerca de US$ 25 milhões, 80% disso no pós-treinamento, o que o tornaria extremamente barato quando comparado com seus pares.

Como Decrypt relatado no início deste anoZ.ai já estava treinando modelos de imagem nos servidores Ascend Atlas da Huawei sem um único chip americano. O GLM-5.2 leva essa infraestrutura ainda mais longe – um modelo de mistura de especialistas de 744 bilhões de parâmetros com uma janela de contexto genuína de 1 milhão de tokens, cinco vezes o limite de 200K do GLM-5.1 e uma licença do MIT que significa que nenhuma diretiva governamental pode mudar o interruptor de acesso.

Tokens são os pedaços de tet que um modelo pode ler e gerar, enquanto Parâmetros são o número de configurações e valores internos que determinam como um modelo processa informações e gera respostas

Para quem se destina e quanto custa

Para os desenvolvedores, a janela de contexto é a mudança operacional. Navegação de repositório completo, refatoradores de vários arquivos e longos pipelines de agente que antes exigiam agrupamento tornam-se fluxos de trabalho de chamada única. O preço da API gira em torno de US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de saída – contra a entrada de US$ 5 e a saída de US$ 25 de Claude Opus 4.8. O Plano de Codificação começa em cerca de US$ 18 por mês e funciona diretamente dentro do Claude Code, Cline, Kilo Code e dos ambientes de agência mais populares.

A implantação local também é tecnicamente possível. A Unsloth AI promoveu quantizações GGUF de 2 bits que compactam o modelo de 1,51 TB para 238 GB, mantendo aproximadamente 82% de precisão.

Não fique muito animado, no entanto. Isso ainda significa que ele exige 256 GB de memória unificada ou uma combinação RAM/VRAM correspondente – um M4 Ultra Mac Studio no máximo ou uma estação de trabalho com uma GPU de gama média e 256 GB de RAM de sistema com descarregamento misto de especialistas. Ainda é muito dinheiro, mas pelo menos algo que você pode comprar e administrar em sua casa, se realmente quiser.

Fizemos um teste rápido, pedindo ao GLM-5.2 para construir nosso jogo padrão misturando mecânica de digitação com um jogo de tiro. A UI não era das mais bonitas – outros modelos geravam interfaces de aparência mais refinada, mas a experiência era a mais variada: diferentes cenários entre ondas, tipos de inimigos que mudavam, chefes aparecendo mais tarde na corrida.

Ele gerou estados de jogo mais diversos do que qualquer outra coisa que testamos para a mesma tarefa em uma configuração de tiro zero.

Se você quiser jogar, está ao vivo em nosso perfil Itch.io.

Essa variação aponta para onde o GLM-5.2 faz mais sentido do ponto de vista económico. Para fluxos de trabalho de geração multi-shot e pipelines de agentes onde a diversidade de produção é mais importante do que o polimento, é difícil contestar a matemática nos níveis de preços de código aberto. Para as tarefas sustentadas mais difíceis – SWE-Marathon, onde obteve 13,0 contra 26,0 do Opus 4.8 – a diferença para a fronteira fechada ainda é real, e tem 13 pontos de largura.

Os pesos de código aberto estão disponíveis no HuggingFace sob a licença do MIT. Os pesos quantizados também estão disponíveis no HuggingFace. Os assinantes do Plano de Codificação GLM podem mudar agora com a string de modelo GLM-5.2, e ela também está disponível para teste gratuito no z.AI com algumas restrições de uso.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *