Em resumo
- O Mercury 2 da Inception Labs gera cerca de 1.000 tokens por segundo e obteve 90 pontos no AIME 2026
- O recente DiffusionGemma do Google atinge velocidades semelhantes, mas tem desempenho pior em benchmarks.
- DiffusionGemma é gratuito e aberto no Hugging Face. Mercury 2 é um modelo de API pago e fechado.
A Inception Labs apresentou o Mercury 2 na quinta-feira, chamando-o de modelo de linguagem de raciocínio mais rápido do mundo. De acordo com o anúncio da empresa, ele gera cerca de 1.000 tokens por segundo – os pedaços de texto que um modelo de IA lê e escreve – contra cerca de 89 tokens por segundo para Claude Haiku 4.5 Reasoning da Anthropic e 71 para o GPT-5 Mini da OpenAI.
Isso o coloca na mesma faixa de velocidade que o Google reivindicaria mais tarde para o DiffusionGemma.
Bem-vindo à era da difusão.
Apostamos na geração paralela anos atrás, quando era uma ideia contrária. É ótimo ver a indústria chegar.
Mercury 2 continua a liderar a fronteira de Pareto em qualidade, velocidade e custo entre os LLMs de difusão disponíveis publicamente. pic.twitter.com/qSHuiR7vmH
– Início (@_inception_ai) 18 de junho de 2026
Ambos os modelos chegam lá abandonando a abordagem da máquina de escrever para escrever. Um chatbot padrão escreve uma palavra, verifica o que acabou de escrever e depois escreve a próxima, repetindo até que a resposta seja concluída. Em vez disso, os modelos de difusão preenchem um bloco de texto com tokens de espaço reservado aleatórios e apagam o ruído em algumas passagens paralelas – o mesmo truque que transforma a estática em uma foto em geradores de imagem como o Stable Diffusion – até que todo o bloco trave em uma resposta finalizada de uma só vez.
Onde os dois divergem é o que sobrevive a esse processo. No AIME 2026 – construído a partir de problemas reais do American Invitational Mathematics Examination e pontuado conforme a porcentagem resolvida corretamente – o Mercury 2 atingiu 90%. O Google testou o DiffusionGemma no mesmo conjunto, onde obteve 69,1%, enquanto o Gemma 4 padrão sem difusão obteve 88,3% no mesmo teste.
No GPQA, um benchmark científico em nível de doutorado teve a mesma pontuação, os dois modelos quase empatam: Mercury 2 com 77% contra 73,2% do DiffusionGemma. Mas o próprio guia do desenvolvedor do Google recomenda o Gemma 4 padrão para aplicativos que exigem qualidade máxima, admitindo que o DiffusionGemma o acompanha em todos os aspectos.
A afirmação de velocidade também se aplica fora do laboratório. A Augment Code, uma empresa de agentes de codificação de IA, trocou o Mercury 2 pelo Claude Opus 4.7 da Anthropic em seu subagente de compactação de contexto e viu uma queda de 82% na latência e um corte de 90% no custo, ao mesmo tempo em que relatou a mesma qualidade de saída, de acordo com um estudo de caso conjunto.
O Inception foi construído com base na pesquisa de seu fundador Stefano Ermon, um professor de Stanford que foi coautor de algumas das técnicas de difusão baseadas em pontuação que alimentam os geradores de imagens atuais. A rodada de financiamento de US$ 50 milhões da startup contou com o apoio do braço de risco da Nvidia e dos investidores individuais Andrew Ng e Andrej Karpathy.
Para usuários não técnicos, a grande coisa que a maioria das pessoas não percebe até sentir que é o “fluxo”. Os modelos tradicionais fazem você esperar entre pensamentos em uma longa sessão. Modelos de difusão como esse fazem com que a IA pareça estar acompanhando você: preenchimento automático instantâneo, iterações rápidas em código ou planos e subagentes que podem lidar com o trabalho chato de alto volume sem arrastar todo o sistema para baixo.
Essa camada de subagentes é a mudança arquitetônica interessante. Os sistemas complexos de IA não são mais um modelo inteligente gigante. Eles são orquestras de ajudantes especializados: um para raciocínio profundo, vários para resumo rápido, roteamento, pesquisa de ferramentas, verificação de saída, etc. Modelos sequenciais tornam essas chamadas de utilitário caras e lentas. Os de difusão paralela os tornam baratos e rápidos o suficiente para serem usados liberalmente.
Advertências realistas para usuários regulares: ainda são melhores para partes de fluxos de trabalho sensíveis à velocidade e de alto volume, em vez do raciocínio de fronteira mais difícil (onde os maiores modelos de AR ainda podem ter uma vantagem por enquanto). Mercury 2 não tem peso aberto, então é API/nuvem por enquanto. E, assim como a versão do Google, todo o ecossistema (tempos de execução locais, estruturas de agentes) ainda está se atualizando para torná-lo perfeito em todos os lugares.
Casos de uso que surgem imediatamente: programação rápida em tempo real e “codificação de vibração”, onde o modelo acompanha suas edições, codificação multiagente ou sistemas de suporte onde acontecem muitas subchamadas rápidas, interfaces de voz que não parecem lentas e qualquer preenchimento automático sensível à latência ou previsão da próxima ação. Em escala, as economias de custos e de energia decorrentes do maior rendimento em hardware padrão aumentam rapidamente.
Os números que a Inception compartilha (e as avaliações independentes) mostram o caso visualmente: Mercury 2 fica no quadrante “rápido e bom” para modelos de difusão, empurrando o que costumava exigir hardware exótico para GPUs comuns.
Resumo Diário Boletim informativo
Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.
Fontedecrypt




