Gemma do Google já age como Gêmeos – alguém também a fez pensar como Claude Opus

Se você acompanha o cenário local de IA, provavelmente conhece o Qwopus – o modelo de código aberto que tentou destilar o raciocínio de Claude Opus 4.6 no Qwen do Alibaba, para que você pudesse executar algo parecido com o Opus em seu próprio hardware gratuitamente. Funcionou surpreendentemente bem. O problema óbvio: Qwen é um modelo chinês e nem todo mundo se sente confortável com isso.

Jackrong, o mesmo desenvolvedor pseudônimo por trás desse projeto, ouviu o feedback. Sua resposta é Gemopus – uma nova família de ajustes finos no estilo Claude Opus construídos inteiramente no Gemma 4 de código aberto do Google. DNA totalmente americano, mesma ideia: raciocínio de nível de fronteira, rodando localmente em hardware que você já possui.

A família vem em dois sabores. Gemopus-4-26B-A4B é a opção mais pesada – um modelo Mixture of Experts que tem 26 bilhões de parâmetros totais, mas ativa apenas cerca de 4 bilhões durante a inferência, o que significa que ele perfura bem acima de seu peso em hardware restrito.

Os parâmetros são o que determinam a capacidade de uma IA de aprender, raciocinar e armazenar informações. Ter 26 bilhões de parâmetros totais dá ao modelo uma enorme amplitude de conhecimento. Mas ao “acordar” apenas os 4 bilhões de parâmetros relevantes para o seu prompt específico, ele oferece resultados de alta qualidade de uma IA massiva, permanecendo leve o suficiente para funcionar perfeitamente no hardware do dia a dia.

O outro é o Gemopus-4-E4B, um modelo de borda de 4 bilhões de parâmetros projetado para funcionar confortavelmente em um iPhone moderno ou em um MacBook fino e leve – sem necessidade de GPU.

A escolha do modelo básico é importante aqui. O Gemma 4 do Google, lançado em 2 de abril, é construído diretamente a partir da mesma pesquisa e tecnologia do Gemini 3 – a empresa disse isso explicitamente no lançamento. Isso significa que Gemopus carrega algo que nenhum ajuste fino baseado em Qwen pode reivindicar: o DNA do modelo fechado de última geração do Google sob o capô, envolto no estilo de pensamento da Antrópico no topo. O melhor dos dois mundos, mais ou menos.

O que torna Gemopus diferente da onda de outras melodias de Gemma que inundam Hugging Face agora é a filosofia por trás dele. Jackrong deliberadamente optou por não forçar os traços de raciocínio da cadeia de pensamento de Claude nos pesos de Gemma – um atalho que a maioria dos lançamentos concorrentes toma.

Seu argumento, apoiado por pesquisas recentes, é que encher um modelo de aluno com um texto de raciocínio de nível superficial de um professor não transfere, na verdade, capacidade de raciocínio real. Ensina imitação, não lógica. “Não há necessidade de imaginação excessiva ou de replicação supersticiosa da cadeia de pensamento ao estilo de Claude”, diz o modelo do cartão. Em vez disso, ele se concentrou na qualidade das respostas, na clareza estrutural e na naturalidade da conversa – corrigindo o tom rígido de Gemma na Wikipédia e sua tendência de dar sermões sobre coisas que você não perguntou.

O engenheiro de infraestrutura de IA Kyle Hessling executou benchmarks independentes e publicou os resultados diretamente no cartão do modelo. Seu veredicto sobre a variante 26B foi bastante favorável. “Fico feliz por ter testado bastante este aqui e é um excelente ajuste fino de um modelo já excepcional”, escreveu ele no X. “Ele arrasa em solicitações únicas em contextos longos e funciona incrivelmente rápido graças à arquitetura MOE (mistura de especialistas).

Gemopus-4-26B-A4B de Jackrong está AO VIVO!

Fico feliz por ter bancada este aqui com bastante força (veja meus bancos no cartão de modelo) e é um excelente ajuste de um modelo já excepcional! Meu amigo Jackrong está sempre cozinhando melhor!

É incrível em solicitações únicas por muito tempo …

-Kyle Hessling (@KyleHessling1) 10 de abril de 2026

A variante E4B menor passou em todos os 14 testes de competência central – seguimento de instruções, codificação, matemática, raciocínio em várias etapas, tradução, segurança, armazenamento em cache – e passou em todos os 12 testes de contexto longo em tokens de 30 mil e 60 mil. Na recuperação de agulha no palheiro, ele passou em 13 de 13 sondagens, incluindo um teste de estiramento em um milhão de tokens com escalonamento YaRN 8× RoPE.

O 26B se estende nativamente para o contexto de 131K e até 524K com YaRN, que Hessling também testou o estresse: “Ele também esmagou meus testes simples de agulha no palheiro até um contexto estendido de 524k!”

No hardware de ponta, o E4B é genuinamente rápido. Jackrong relata 45–60 tokens por segundo no iPhone 17 Pro Max e 90–120 tokens por segundo no MacBook Air M3/M4 via MLX. A arquitetura 26B MoE significa que ele descarrega normalmente em sistemas de memória unificada ou GPUs com menos de 10 GB de VRAM. Hessling chamou isso de sua recomendação diária de driver para configurações com falta de VRAM.

Ambos os modelos estão disponíveis no formato GGUF, o que significa que você pode soltá-los diretamente no LM Studio ou llama.cpp sem configuração. O código de treinamento completo e um guia de ajuste passo a passo estão no GitHub de Jackrong – o mesmo pipeline que ele usou para Qwopus, a mesma configuração de Unsloth e LoRA, reproduzível no Colab.

Gemopus tem suas arestas. A chamada de ferramentas permanece dividida em toda a série Gemma 4 no llama.cpp e no LM Studio – falhas de chamada, incompatibilidades de formato, loops – portanto, se o seu fluxo de trabalho depende de agentes que usam ferramentas externas, este ainda não é o seu modelo. O próprio Jackrong o chama de “uma referência de exploração de engenharia em vez de uma solução totalmente pronta para produção” e recomenda sua própria série Qwopus 3.5 para quem precisa de algo mais estável para cargas de trabalho reais.

E como Jackrong evitou deliberadamente a destilação agressiva em cadeia de pensamento ao estilo de Claude, não espere que pareça tão profundamente intelectualizado quanto o Qwopus – isso foi uma troca consciente pela estabilidade, não um descuido.

Sim, a filosofia deste aqui era estabilidade primeiro, entendo que os modelos Gemma tendem a se tornar instáveis se você forçar um monte de traços de pensamento de Claude neles, você pode ver isso ao testar muitas outras melodias finas do Opus gemma no rosto de abraços.

Jackrong tentou um…

-Kyle Hessling (@KyleHessling1) 10 de abril de 2026

Para aqueles que desejam se aprofundar no ajuste fino do Gemma especificamente para o raciocínio, há também um projeto comunitário separado que vale a pena assistir: Ornstein, do pseudônimo desenvolvedor DJLougen, que usa a mesma base 26B Gemma 4 e se concentra especificamente em melhorar suas cadeias de raciocínio sem depender da lógica ou estilo de qualquer modelo específico de terceiros.

Uma advertência honesta: a dinâmica de treinamento de Gemma é mais confusa do que a de Qwen para sintonizadores finos – flutuações de perda mais amplas, mais sensibilidade de hiperparâmetros. O próprio Jackrong diz isso. Se você precisar de um modelo local mais testado em batalha para fluxos de trabalho de produção, sua série Qwopus 3.5 permanece validada de forma mais robusta. Mas se você quer um modelo americano com polimento estilo Opus, Gemopus é atualmente sua melhor opção disponível. Uma variante mais densa do 31B Gemopus também está em desenvolvimento, com Hessling provocando-a como “um banger com certeza”.

Se você quiser tentar executar modelos locais em seu próprio hardware, consulte nosso guia sobre como começar a usar IA local.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Gemma do Google já age como Gêmeos – alguém também a fez pensar como Claude Opus

ByJose Antonio Lanz

Resumo Diário Boletim informativo

By Jose Antonio Lanz

Leia Também

BTC desaba 4% e perde os US$ 70 mil com venda da Estratégia e piora na guerra EUA-Irã

Strive busca expansão de caixas eletrônicos de US$ 4,2 bilhões para financiar mais compras de Bitcoin

Robinhood acaba de adquirir a maior plataforma de criptografia do Canadá – e trouxe com ela 300.000 novos clientes

Deixe um comentário Cancelar resposta

Leia Também:

BTC desaba 4% e perde os US$ 70 mil com venda da Estratégia e piora na guerra EUA-Irã

Strive busca expansão de caixas eletrônicos de US$ 4,2 bilhões para financiar mais compras de Bitcoin

Robinhood acaba de adquirir a maior plataforma de criptografia do Canadá – e trouxe com ela 300.000 novos clientes

O preço do XRP volta ao território de perigo com os ursos no controle