Decrypt logoImage: Shutterstock/Decrypt

Se você acompanha o cenário local de IA, provavelmente conhece o Qwopus – o modelo de código aberto que tentou destilar o raciocínio de Claude Opus 4.6 no Qwen do Alibaba, para que você pudesse executar algo parecido com o Opus em seu próprio hardware gratuitamente. Funcionou surpreendentemente bem. O problema óbvio: Qwen é um modelo chinês e nem todo mundo se sente confortável com isso.

Jackrong, o mesmo desenvolvedor pseudônimo por trás desse projeto, ouviu o feedback. Sua resposta é Gemopus – uma nova família de ajustes finos no estilo Claude Opus construídos inteiramente no Gemma 4 de código aberto do Google. DNA totalmente americano, mesma ideia: raciocínio de nível de fronteira, rodando localmente em hardware que você já possui.

A família vem em dois sabores. Gemopus-4-26B-A4B é a opção mais pesada – um modelo Mixture of Experts que tem 26 bilhões de parâmetros totais, mas ativa apenas cerca de 4 bilhões durante a inferência, o que significa que ele perfura bem acima de seu peso em hardware restrito.

Os parâmetros são o que determinam a capacidade de uma IA de aprender, raciocinar e armazenar informações. Ter 26 bilhões de parâmetros totais dá ao modelo uma enorme amplitude de conhecimento. Mas ao “acordar” apenas os 4 bilhões de parâmetros relevantes para o seu prompt específico, ele oferece resultados de alta qualidade de uma IA massiva, permanecendo leve o suficiente para funcionar perfeitamente no hardware do dia a dia.

O outro é o Gemopus-4-E4B, um modelo de borda de 4 bilhões de parâmetros projetado para funcionar confortavelmente em um iPhone moderno ou em um MacBook fino e leve – sem necessidade de GPU.

A escolha do modelo básico é importante aqui. O Gemma 4 do Google, lançado em 2 de abril, é construído diretamente a partir da mesma pesquisa e tecnologia do Gemini 3 – a empresa disse isso explicitamente no lançamento. Isso significa que Gemopus carrega algo que nenhum ajuste fino baseado em Qwen pode reivindicar: o DNA do modelo fechado de última geração do Google sob o capô, envolto no estilo de pensamento da Antrópico no topo. O melhor dos dois mundos, mais ou menos.

O que torna Gemopus diferente da onda de outras melodias de Gemma que inundam Hugging Face agora é a filosofia por trás dele. Jackrong deliberadamente optou por não forçar os traços de raciocínio da cadeia de pensamento de Claude nos pesos de Gemma – um atalho que a maioria dos lançamentos concorrentes toma.

Seu argumento, apoiado por pesquisas recentes, é que encher um modelo de aluno com um texto de raciocínio de nível superficial de um professor não transfere, na verdade, capacidade de raciocínio real. Ensina imitação, não lógica. “Não há necessidade de imaginação excessiva ou de replicação supersticiosa da cadeia de pensamento ao estilo de Claude”, diz o modelo do cartão. Em vez disso, ele se concentrou na qualidade das respostas, na clareza estrutural e na naturalidade da conversa – corrigindo o tom rígido de Gemma na Wikipédia e sua tendência de dar sermões sobre coisas que você não perguntou.

O engenheiro de infraestrutura de IA Kyle Hessling executou benchmarks independentes e publicou os resultados diretamente no cartão do modelo. Seu veredicto sobre a variante 26B foi bastante favorável. “Fico feliz por ter testado bastante este aqui e é um excelente ajuste fino de um modelo já excepcional”, escreveu ele no X. “Ele arrasa em solicitações únicas em contextos longos e funciona incrivelmente rápido graças à arquitetura MOE (mistura de especialistas).

A variante E4B menor passou em todos os 14 testes de competência central – seguimento de instruções, codificação, matemática, raciocínio em várias etapas, tradução, segurança, armazenamento em cache – e passou em todos os 12 testes de contexto longo em tokens de 30 mil e 60 mil. Na recuperação de agulha no palheiro, ele passou em 13 de 13 sondagens, incluindo um teste de estiramento em um milhão de tokens com escalonamento YaRN 8× RoPE.

O 26B se estende nativamente para o contexto de 131K e até 524K com YaRN, que Hessling também testou o estresse: “Ele também esmagou meus testes simples de agulha no palheiro até um contexto estendido de 524k!”

No hardware de ponta, o E4B é genuinamente rápido. Jackrong relata 45–60 tokens por segundo no iPhone 17 Pro Max e 90–120 tokens por segundo no MacBook Air M3/M4 via MLX. A arquitetura 26B MoE significa que ele descarrega normalmente em sistemas de memória unificada ou GPUs com menos de 10 GB de VRAM. Hessling chamou isso de sua recomendação diária de driver para configurações com falta de VRAM.

Ambos os modelos estão disponíveis no formato GGUF, o que significa que você pode soltá-los diretamente no LM Studio ou llama.cpp sem configuração. O código de treinamento completo e um guia de ajuste passo a passo estão no GitHub de Jackrong – o mesmo pipeline que ele usou para Qwopus, a mesma configuração de Unsloth e LoRA, reproduzível no Colab.

Gemopus tem suas arestas. A chamada de ferramentas permanece dividida em toda a série Gemma 4 no llama.cpp e no LM Studio – falhas de chamada, incompatibilidades de formato, loops – portanto, se o seu fluxo de trabalho depende de agentes que usam ferramentas externas, este ainda não é o seu modelo. O próprio Jackrong o chama de “uma referência de exploração de engenharia em vez de uma solução totalmente pronta para produção” e recomenda sua própria série Qwopus 3.5 para quem precisa de algo mais estável para cargas de trabalho reais.

E como Jackrong evitou deliberadamente a destilação agressiva em cadeia de pensamento ao estilo de Claude, não espere que pareça tão profundamente intelectualizado quanto o Qwopus – isso foi uma troca consciente pela estabilidade, não um descuido.

Para aqueles que desejam se aprofundar no ajuste fino do Gemma especificamente para o raciocínio, há também um projeto comunitário separado que vale a pena assistir: Ornstein, do pseudônimo desenvolvedor DJLougen, que usa a mesma base 26B Gemma 4 e se concentra especificamente em melhorar suas cadeias de raciocínio sem depender da lógica ou estilo de qualquer modelo específico de terceiros.

Uma advertência honesta: a dinâmica de treinamento de Gemma é mais confusa do que a de Qwen para sintonizadores finos – flutuações de perda mais amplas, mais sensibilidade de hiperparâmetros. O próprio Jackrong diz isso. Se você precisar de um modelo local mais testado em batalha para fluxos de trabalho de produção, sua série Qwopus 3.5 permanece validada de forma mais robusta. Mas se você quer um modelo americano com polimento estilo Opus, Gemopus é atualmente sua melhor opção disponível. Uma variante mais densa do 31B Gemopus também está em desenvolvimento, com Hessling provocando-a como “um banger com certeza”.

Se você quiser tentar executar modelos locais em seu próprio hardware, consulte nosso guia sobre como começar a usar IA local.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *