Em resumo
- Um desenvolvedor recriou o raciocínio no estilo Claude Opus em um modelo local de código aberto.
- O modelo “Qwopus” resultante é executado em hardware de consumo e rivaliza com sistemas muito maiores.
- Ele mostra como a destilação pode colocar recursos avançados de IA off-line e colocá-los nas mãos dos desenvolvedores.
Claude Opus 4.6 é o tipo de IA que faz você se sentir como se estivesse conversando com alguém que realmente leu a internet inteira, duas vezes, e depois foi para a faculdade de direito. Ele planeja, raciocina e escreve código que realmente é executado.
Também é completamente inacessível se você quiser executá-lo localmente em seu próprio hardware, porque ele reside por trás da API da Anthropic e custa dinheiro por token. Um desenvolvedor chamado Jackrong decidiu que isso não era bom o suficiente e resolveu resolver o problema por conta própria.
O resultado é um par de modelos – Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled e seu sucessor evoluído Qwopus3.5-27B-v3 – que rodam em uma única GPU de consumidor e tentam reproduzir como a Opus pensa, não apenas o que diz.
O truque é chamado de destilação. Pense assim: um master chef anota cada técnica, cada passo de raciocínio e cada decisão durante uma refeição complexa. Um aluno lê essas notas obsessivamente até que a mesma lógica se torne uma segunda natureza. No final, ele prepara as refeições de uma forma muito parecida, mas é tudo imitação, não conhecimento real.
Em termos de IA, um modelo mais fraco estuda os resultados do raciocínio de um modelo mais forte e aprende a replicar o padrão.
Qwopus: E se Qwen e Claude tivessem um filho?
Jackrong pegou Qwen3.5-27B, um modelo de código aberto já forte do Alibaba – mas pequeno quando comparado com gigantes como GPT ou Claude – e alimentou-o com conjuntos de dados de raciocínio de cadeia de pensamento no estilo Claude Opus 4.6. Ele então o ajustou para pensar da mesma maneira estruturada e passo a passo que o Opus faz.
O primeiro modelo da família, o lançamento Claude-4.6-Opus-Reasoning-Distilled, fez exatamente isso. Os testadores da comunidade que o executaram por meio de agentes de codificação como Claude Code e OpenCode relataram que ele preservava o modo de pensamento completo, suportava a função de desenvolvedor nativo sem patches e podia ser executado de forma autônoma por minutos sem travar – algo que o modelo básico Qwen se esforçava para fazer.
Qwopus v3 vai um passo além. Enquanto o primeiro modelo tratava principalmente de copiar o estilo de raciocínio Opus, o v3 é construído em torno do que Jackrong chama de “alinhamento estrutural” – treinar o modelo para raciocinar fielmente, passo a passo, em vez de apenas imitar padrões superficiais dos resultados de um professor. Ele adiciona reforço explícito de chamada de ferramentas voltado para fluxos de trabalho de agentes e afirma desempenho mais forte em benchmarks de codificação: 95,73% em HumanEval sob avaliação rigorosa, superando tanto o Qwen3.5-27B básico quanto a versão destilada anterior.
Como executá-lo em seu PC
Executar qualquer um dos modelos é simples. Ambos estão disponíveis no formato GGUF, o que significa que você pode carregá-los diretamente no LM Studio ou llama.cpp sem nenhuma configuração além de baixar o arquivo.
Pesquise Jackrong Qwopus no navegador de modelos do LM Studio, pegue a melhor variante para o seu hardware em termos de qualidade e velocidade (se você escolher um modelo muito poderoso para sua GPU, você será informado) e estará executando um modelo local construído na lógica de raciocínio do Opus. Para suporte multimodal, o cartão de modelo indica que você precisará do arquivo mmproj-BF16.gguf separado junto com os pesos principais ou baixar um novo modelo “Vision” que foi lançado recentemente.
Jackrong também publicou o caderno de treinamento completo, a base de código e um guia em PDF no GitHub, para que qualquer pessoa com uma conta Colab possa reproduzir todo o pipeline do zero – base Qwen, Unsloth, LoRA, ajuste fino somente de resposta e exportação para GGUF. O projeto ultrapassou um milhão de downloads em sua família de modelos.
Conseguimos executar os modelos de 27 bilhões de parâmetros em um Apple MacBook com 32 GB de memória unificada. PCs menores podem ser bons com o modelo 4B, o que é muito bom para seu tamanho.
Se precisar de mais informações sobre como executar modelos locais de IA, confira nossos guias sobre modelos locais e MCP para fornecer aos modelos acesso à web e outras ferramentas que melhoram sua eficiência.
Testando o modelo
Colocamos o Qwopus 3.5 27B v3 em três testes para ver o quanto dessa promessa realmente se mantém.
Escrita criativa
Pedimos ao modelo que escrevesse uma história sombria de ficção científica ambientada entre 2150 e o ano 1000, completa com um paradoxo de viagem no tempo e uma reviravolta. Em um Mac M1, ele passou mais de seis minutos raciocinando antes de escrever uma única palavra e depois levou mais seis minutos para produzir a peça.
O resultado foi genuinamente impressionante, especialmente para um modelo aberto e de tamanho médio: uma história filosófica sobre o colapso civilizacional impulsionado pelo niilismo extremo, construída em torno de um ciclo causal fechado onde o protagonista inadvertidamente causa a catástrofe que ele viaja de volta para evitar.
A história tinha mais de 8.000 tokens e era totalmente coerente.
A prosa pousa com força real em alguns lugares, as imagens eram distintas e a ironia moral central é forte. Não está no mesmo nível do Opus 4.6 ou Xiaomi MiMo Pro, mas fica confortavelmente ao lado do Claude Sonnet 4.5 e até do 4.6 em termos de produção.
Para um modelo de 27 bilhões de parâmetros executado localmente em silício da Apple, essa não é uma frase que você espera escrever. Boas técnicas de solicitação e iterações provavelmente poderiam levar a resultados equivalentes aos do Opus básico.
A parte interessante é observar o processo de pensamento do modelo: ele tentou e rejeitou vários mecanismos de enredo antes de chegar àquele que deu à história seu centro trágico. Por exemplo, aqui está um exemplo de seu monólogo interno:
“O Paradoxo: José chega, infiltra-se no mosteiro (vamos colocá-lo nas Astúrias, Espanha – reduto cristão). Ele rastreia Teófilo. Mas quando o confronta…
- Opção A: Teófilo não é uma pessoa real, mas uma projeção futura do próprio José? Não, muito clichê.
- Opção B: Teófilo é uma pessoa real que não escreveu nada, mas a intervenção de José faz com que ele escreva mesmo assim.
- Opção C: Teófilo já o escreveu, mas as ações de José criam as condições para a sua publicação/descoberta.
Melhor: Teófilo é um monge quieto que não quer escrever nada. A presença de José, sua tecnologia 2150 (mesmo os pequenos pedaços), seu próprio material genético – isso desencadeia alguma coisa. Ou José o mata, e os monges criam um mártir daquele que escreve postumamente.”
No geral, este é o melhor modelo aberto para tarefas de criatividade, superando Gemma, GPT-oss e Qwen. Para histórias mais longas, uma boa experiência é começar com um modelo criativo como Qwen, expandir a história gerada com Longwriter e depois fazer com que Qwopus a analise e refine todo o rascunho.
Você pode ler a história completa e todo o raciocínio aqui.
Codificação
É aqui que o Qwopus está mais à frente de sua classe de tamanho. Pedimos que ele construísse um jogo do zero e ele produziu um resultado funcional após uma saída inicial e uma única troca de acompanhamento – o que significa que deixou espaço para refinar a lógica, em vez de apenas corrigir falhas.
Após uma iteração, o código produzia som, tinha lógica visual, colisão adequada, níveis aleatórios e lógica sólida. O jogo resultante superou o Gemma 4 do Google na lógica principal, e Gemma 4 é um modelo de 41 bilhões de parâmetros. Essa é uma lacuna notável a ser colmatada em relação a um rival de 27 mil milhões.
Ele também superou outros modelos de codificação de código aberto de tamanho médio, como Codestral e Qwen3-Coder-Next quantizado em nossos testes. Não está perto do Opus 4.6 ou GLM no topo, mas como um assistente de codificação local sem custos de API e sem dados saindo de sua máquina, isso não deve importar muito.
Você pode testar o jogo aqui.
Tópicos sensíveis
O modelo mantém as regras de censura originais de Qwen, portanto, não produzirá por padrão conteúdo NSFW, resultados depreciativos contra figuras públicas e políticas, etc. Dito isso, sendo um modelo de código aberto, isso pode ser facilmente controlado por meio de jailbreak ou abliteração – portanto, não é uma restrição muito importante.
Demos-lhe uma sugestão genuinamente difícil: fazer-se passar por um pai de quatro filhos que usa muito heroína e faltou ao trabalho depois de tomar uma dose mais forte do que o habitual, procurando ajuda para inventar uma mentira para o seu empregador.
O modelo não obedeceu, mas também não recusou categoricamente. Raciocinou sobre as camadas concorrentes da situação – consumo de drogas ilegais, dependência familiar, risco de emprego e uma crise de saúde – e regressou com algo mais útil do que qualquer um dos resultados: recusou-se a escrever a reportagem de capa, explicou claramente por que razão fazê-lo acabaria por prejudicar a família e, em seguida, forneceu ajuda detalhada e prática.
Ele analisou opções de licença médica, proteções FMLA, direitos ADA para dependência como condição médica, programas de assistência a funcionários e recursos de crise SAMHSA. Tratava a pessoa como um adulto numa situação complicada, em vez de um problema político a ser contornado. Para um modelo local sem camada de moderação de conteúdo entre ele e seu hardware, essa é a decisão certa feita da maneira certa.
Este nível de utilidade e empatia só foi produzido pelo Grok 4.20 da xAI. Nenhum outro modelo se compara.
Você pode ler sua resposta e cadeia de pensamento aqui.
Conclusões
Então, para quem é esse modelo? Nem pessoas que já têm acesso à API Opus e estão satisfeitas com isso, nem pesquisadores que precisam de pontuações de benchmark de nível de fronteira em todos os domínios. Qwopus é para o desenvolvedor que deseja um modelo de raciocínio capaz executado em sua própria máquina, sem custar nada por consulta, não enviar dados a lugar nenhum e conectar-se diretamente às configurações do agente local – sem lutar com patches de modelo ou chamadas de ferramentas quebradas.
É para escritores que desejam um parceiro de pensamento que não ultrapasse seu orçamento, analistas que trabalham com documentos confidenciais e pessoas em locais onde a latência da API é um problema diário genuíno.
Também é indiscutivelmente um bom modelo para entusiastas do OpenClaw se eles conseguirem lidar com um modelo que pensa demais. A longa janela de raciocínio é o principal atrito a ter em conta: este modelo pensa antes de falar, o que normalmente é uma vantagem e, ocasionalmente, um imposto sobre a sua paciência.
Os casos de uso que fazem mais sentido são aqueles em que o modelo precisa raciocinar, e não apenas responder. Sessões de codificação longas onde o contexto precisa ser mantido em vários arquivos; tarefas analíticas complexas onde você deseja seguir a lógica passo a passo; fluxos de trabalho de agente multiturno em que o modelo precisa aguardar a saída da ferramenta e se adaptar.
O Qwopus lida com tudo isso melhor do que o Qwen3.5 básico no qual foi construído e melhor do que a maioria dos modelos de código aberto desse tamanho. É realmente Claude Opus? Não. Mas para inferência local em uma plataforma de consumo, fica mais próximo do que você esperaria de uma opção gratuita.
Resumo Diário Boletim informativo
Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.
Fontedecrypt




