Em resumo
- O Google lançou o DiffusionGemma, um modelo aberto gratuito que gera blocos inteiros de 256 tokens simultaneamente por meio de difusão de texto – atingindo mais de 1.000 tokens por segundo em um NVIDIA H100, quatro vezes mais rápido que os modelos autorregressivos padrão.
- O módulo de rascunho personalizado que DiffusionGemma precisa para inferência local ainda não existe em nenhum tempo de execução público – nem no mlx-lm, nem no LM Studio – tornando-o efetivamente inexequível na maioria das configurações do consumidor hoje.
- No NVIDIA NIM, o modelo chegou pré-configurado com 8.192 tokens de contexto — abaixo do limite mínimo de 64.000 tokens exigido por estruturas de agente como o Hermes Agent — o que significa que fluxos de trabalho autônomos não serão executados sem reconfiguração manual.
O Google lançou hoje o DiffusionGemma, um modelo aberto de IA que gera texto da mesma forma que os geradores de imagens criam imagens: comece com ruído, refine até que faça sentido. Atinge 1.000 tokens por segundo em um NVIDIA H100. (Tokens são a unidade básica de informação que um modelo de IA manipula.) Isso significa que é quatro vezes mais rápido que o Gemma normal. Também é gratuito, Apache 2.0, com pesos no Hugging Face.
O problema, como sempre, está nas letras miúdas. De acordo com o anúncio do Google, o modelo atinge “mais de 700 tokens por segundo na NVIDIA GeForce RTX 5090”. Ele também fica atrás do Gemma 4 padrão em qualidade de saída.
O próprio Google diz isso. Este é um modelo de velocidade, não uma atualização de qualidade.
O que isso realmente faz
Cada LLM que você usou é uma máquina de escrever. Um token de cada vez, com cada palavra dependente da última. É assim que funcionam as arquiteturas autorregressivas.
DiffusionGemma não faz isso. Em vez de gerar tokens sequencialmente, ele começa com pedaços refinados de texto distorcido em paralelo. De acordo com o guia do desenvolvedor do Google, ele “começa com uma tela de tokens de espaço reservado aleatórios” e bloqueia iterativamente em tokens confiáveis até que todo o bloco entre em foco. Duzentos e cinquenta e seis tokens por passe para frente. A GPU permanece ocupada.
O efeito colateral é a atenção bidirecional – cada token pode ver todos os outros tokens enquanto é gerado, o que é impossível em modelos autorregressivos (eles não podem ver o futuro, o que será codificado). Isso o torna excepcionalmente bom em tarefas onde o final da resposta restringe o início: preenchimento de código, saída estruturada, problemas com muitas restrições, etc. O Google ajustou uma versão para resolver o Sudoku como uma demonstração. O modelo básico acertou cerca de 0% dos quebra-cabeças.
A versão ajustada atingiu 80%.
A difusão de texto tem sido um projeto de pesquisa há anos. MDLM, SEDD, LLaDA, Dream – modelos acadêmicos que provaram que a abordagem funcionava em pequena escala e permaneceram principalmente como prova de conceitos. A Inception Labs lançou o Mercury 2 em fevereiro de 2026 como o primeiro modelo comercial de raciocínio de difusão, alegando velocidades cinco vezes mais rápidas do que os concorrentes com velocidade otimizada.
Mas nada disso era aberto e nada disso veio com suporte do dia zero em vLLM, Hugging Face Transformers e Unsloth. DiffusionGemma é o primeiro grande lançamento aberto de um laboratório de nível um.
Há também uma ironia histórica digna de nota. Os geradores de imagens começaram como modelos de difusão (daí o nome Difusão Estável) e agora estão migrando para arquiteturas autorregressivas para obter melhor qualidade. Os modelos de linguagem começaram como autoregressivos e agora estão experimentando a difusão para obter velocidade.
Por que é difícil correr… por enquanto
A execução eficiente do DiffusionGemma requer um redator – um módulo leve que propõe blocos de token em paralelo, que o modelo principal verifica em uma passagem direta. Isso é chamado de decodificação especulativa. DFlash é um framework publicado no início de 2026 que usa um modelo de pequena difusão como redator, permitindo uma aceleração de mais de 6x em algumas tarefas. É o motor que torna esta classe de modelo prática.
O problema: DiffusionGemma precisa de um redator específico para executar localmente por meio do MLX – a estrutura de aprendizado de máquina da Apple para Apple Silicon. Esse módulo não existe em nenhuma versão pública do mlx-lm, em nenhuma solicitação pull aberta ou no tempo de execução incluído no LM Studio.
Tentamos executar o DiffusionGemma com Hermes por meio do NVIDIA NIM. O modelo foi carregado, mas então: “falha na inicialização do agente: o modelo google/diffusiongemma-26b-a4b-it possui uma janela de contexto de 8.192 tokens, que está abaixo do mínimo de 64.000 exigido pelo Agente Hermes.”
Para ser mais preciso: a janela de contexto real do DiffusionGemma tem 256 mil tokens. O número de 8.192 foi a Nvidia bagunçando as coisas por padrão, não o limite arquitetônico do modelo.
Na prática, configurá-lo corretamente para uso agente requer um trabalho manual que a maioria dos usuários comuns ainda não descobriu, e o Hermes Agent simplesmente não inicializa sem ele. A velocidade paralela não significa nada se o agente não conseguir inicializar.
Esperançosamente, nos próximos dias, a comunidade produzirá melhores recursos para executar esses modelos.
Para quem é realmente isso
Desenvolvedores com hardware NVIDIA RTX 4090 ou 5090 criando ferramentas em tempo real — editores inline, preenchimento automático, preenchimento de código, geração estruturada. Esse é o alvo. Conforme o Decrypt abordou em maio, o Google tem feito um esforço constante para tornar a inferência local mais rápida, sem novo hardware.
Para os pesquisadores, a geração bidirecional abre um território que os modelos autorregressivos simplesmente não conseguem alcançar – sequências de proteínas, gráficos matemáticos, qualquer coisa em que a posição N dependa da posição N+50. Isso não é uma coisa pequena.
O Google lançou o Gemma 4 no Apache 2.0 em abril, e o DiffusionGemma dá continuidade a essa estratégia. Já existe um rascunho de PR do llama.cpp aberto a partir de hoje. Quando o conjunto de ferramentas se atualiza, atinge um público muito mais amplo.
Em uma máquina com uma GPU discreta capaz, 1.000 tokens por segundo são reais.
Resumo Diário Boletim informativo
Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.
Fontedecrypt




