Decrypt logoNvidia is a leading AI chip maker. Image: Shutterstock/Decrypt

Em resumo

  • A Nvidia lançou o Nemotron 3 Super, um modelo de IA de peso aberto de 120B otimizado para agentes autônomos e tarefas de contexto ultralongas.
  • A arquitetura híbrida Mamba-Transformer MoE oferece raciocínio mais rápido e taxa de transferência superior a 5× enquanto funciona com precisão de 4 bits.
  • O investimento de US$ 26 bilhões da Nvidia em IA de código aberto quer conter a ascensão da China nesse campo.

A Nvidia acaba de lançar o Nemotron 3 Super, um modelo aberto de 120 bilhões de parâmetros construído para fazer uma coisa bem: executar agentes de IA autônomos sem esgotar seu orçamento de computação.

Isso não é um problema pequeno. Os sistemas multiagentes geram muito mais tokens do que um bate-papo normal – cada chamada de ferramenta, etapa de raciocínio e fatia de contexto é reenviada do zero. Como resultado, os custos explodem, os modelos tendem a se desviar e os agentes esquecem lentamente o que deveriam estar fazendo em primeiro lugar… ou pelo menos diminuem a precisão.

Nemotron 3 Super é a resposta da Nvidia para tudo isso. O modelo executa 12 bilhões de parâmetros ativos de um total de 120 bilhões, usando um design de mistura de especialistas (MoE) que mantém a inferência barata, ao mesmo tempo que mantém a profundidade de raciocínio necessária para fluxos de trabalho complexos. Ele contém uma janela de contexto de 1 milhão de tokens, para que os agentes possam manter uma base de código inteira ou quase 750.000 palavras na memória antes de entrar em colapso.

Para construir seu modelo, a Nvidia combinou três componentes que raramente aparecem juntos na mesma arquitetura: camadas de espaço de estado Mamba-2 – uma alternativa de atenção mais rápida e eficiente em termos de memória para lidar com longos fluxos de tokens – junto com camadas de atenção do Transformer para recuperação precisa e um novo design “Latent MoE” que compacta incorporações de token antes de encaminhá-las para especialistas. Isso permite que o modelo ative quatro vezes mais especialistas com o mesmo custo computacional.

O modelo também foi pré-treinado nativamente em NVFP4, formato de ponto flutuante de 4 bits da Nvidia. Na prática, isso significa que o sistema aprendeu a operar com precisão na aritmética de 4 bits desde a primeira atualização do gradiente, em vez de ser treinado com alta precisão e compactado posteriormente, o que muitas vezes faz com que os modelos percam a precisão.

Para fins de contexto, a precisão de um modelo é medida em bits. A precisão total, conhecida como FP32, é o padrão ouro – mas também é extremamente cara para operar em escala. Os desenvolvedores geralmente reduzem a precisão para economizar computação enquanto tentam preservar o desempenho útil.

Pense nisso como reduzir uma imagem 4K para 1080p: a imagem ainda parece a mesma à primeira vista, apenas com menos detalhes. Normalmente, passar da precisão de 32 bits para 4 bits prejudicaria a capacidade de raciocínio de um modelo. O Nemotron evita esse problema aprendendo a operar com baixa precisão desde o início, em vez de ser espremido mais tarde.

Comparado ao seu antecessor, o Nemotron 3 Super oferece mais de cinco vezes o rendimento. Contra rivais externos, é 2,2x mais rápido que o GPT-OSS 120B da OpenAI em taxa de transferência de inferência e 7,5x mais rápido que o Qwen3.5-122B do Alibaba.

Executamos nosso próprio teste rápido. O raciocínio manteve-se bem, inclusive em sugestões deliberadamente vagas, mal formuladas ou baseadas em informações erradas. O modelo detectou pequenos erros no contexto sem ser solicitado, lidou com problemas matemáticos e lógicos de maneira limpa e não desmoronou quando a questão em si estava ligeiramente errada.

O pipeline completo de treinamento é público: pesos no Hugging Face, 10 trilhões de tokens de pré-treinamento selecionados, vistos em mais de 25 trilhões no total durante o treinamento, 40 milhões de amostras pós-treinamento e receitas de aprendizado por reforço em 21 configurações de ambiente. Perplexity, Palantir, Cadence e Siemens já estão integrando o modelo em seus fluxos de trabalho.

A aposta de US$ 26 bilhões

O modelo pode ser parte de uma estratégia maior. Um registro financeiro de 2025 mostra que a Nvidia planeja gastar US$ 26 bilhões nos próximos cinco anos construindo modelos de IA de peso aberto. Os executivos também confirmaram isso.

Bryan Catanzaro, vice-presidente de pesquisa aplicada de aprendizagem profunda, disse Com fio a empresa concluiu recentemente o pré-treinamento de um modelo de 550 bilhões de parâmetros. A Nvidia lançou seu primeiro modelo Nemotron em novembro de 2023, mas esse pedido deixa claro que este não é mais um projeto paralelo.

O investimento é estratégico considerando que os chips da Nvidia ainda são a infraestrutura padrão para treinamento e execução de modelos de fronteira. Os modelos ajustados ao seu hardware oferecem aos clientes um motivo intrínseco para permanecer na Nvidia, apesar dos esforços dos concorrentes para usar outro hardware. Mas há uma pressão mais urgente por detrás desta medida: a América está a perder a corrida da IA ​​de código aberto, e a perdê-la rapidamente.

Os modelos abertos chineses passaram de apenas 1,2% do uso global de modelos abertos no final de 2024 para cerca de 30% no final de 2025, de acordo com uma pesquisa da OpenRouter e Andreessen Horowitz. O Qwen do Alibaba ultrapassou o Llama do Meta como o modelo de código aberto auto-hospedado mais usado, de acordo com o Runpod. Empresas americanas, incluindo o Airbnb, adotaram-no para atendimento ao cliente. Startups em todo o mundo estão construindo sobre isso. Para além da quota de mercado, esse tipo de adopção cria dependências infra-estruturais que são difíceis de reverter.

Enquanto gigantes norte-americanos como OpenAI, Anthropic e Google mantêm os seus melhores modelos bloqueados por APIs, os laboratórios chineses, do DeepSeek ao Alibaba, têm inundado o ecossistema aberto. A Meta era o único grande player americano competindo em código aberto com o Llama, mas Zuckerberg sinalizou recentemente que a empresa pode não tornar os modelos futuros totalmente abertos.

A lacuna entre o “melhor modelo proprietário” e o “melhor modelo aberto” costumava ser enorme – e a favor dos Estados Unidos. Essa diferença é agora muito pequena e o lado aberto da contabilidade é cada vez mais chinês.

Há também uma ameaça de hardware por trás de tudo isso. Espera-se que um novo modelo DeepSeek seja lançado em breve, e há rumores de que ele foi treinado inteiramente em chips fabricados pela Huawei – uma empresa chinesa sancionada. Se isso for confirmado, então daria aos desenvolvedores de todo o mundo, especialmente na China, uma razão concreta para começar a testar o hardware da Huawei. A Ziphu AI da China já está fazendo isso.

Esse é o cenário que a Nvidia mais precisa evitar: modelos abertos chineses e chips chineses construindo um ecossistema que não precisa da Nvidia.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *