O gerenciamento da economia da IA ​​multiagente agora determina a viabilidade financeira dos fluxos de trabalho modernos de automação comercial.

As organizações que progridem das interfaces de chat padrão para aplicações multiagentes enfrentam duas restrições principais. A primeira questão é o imposto do pensamento; agentes autônomos complexos precisam raciocinar em cada estágio, tornando a dependência de arquiteturas massivas para cada subtarefa muito cara e lenta para uso empresarial prático.

A explosão de contexto atua como o segundo obstáculo; esses fluxos de trabalho avançados produzem até 1.500% mais tokens do que os formatos padrão porque cada interação exige o reenvio de históricos completos do sistema, raciocínio intermediário e resultados de ferramentas. Em tarefas estendidas, esse volume de tokens aumenta as despesas e causa desvios nas metas, um cenário em que os agentes divergem de seus objetivos iniciais.

Avaliando arquiteturas para IA multiagente

Para enfrentar esses obstáculos de governança e eficiência, os desenvolvedores de hardware e software estão lançando ferramentas altamente otimizadas voltadas diretamente para a infraestrutura empresarial.

A NVIDIA lançou recentemente o Nemotron 3 Super, uma arquitetura aberta com 120 bilhões de parâmetros (dos quais 12 bilhões permanecem ativos) que foi projetada especificamente para executar sistemas complexos de IA de agentes.

Disponível imediatamente, a estrutura da NVIDIA combina recursos avançados de raciocínio para ajudar agentes autônomos a concluir tarefas com eficiência e precisão para melhorar a automação comercial. O sistema depende de uma arquitetura híbrida de mistura de especialistas que combina três grandes inovações para fornecer rendimento até cinco vezes maior e duas vezes a precisão do modelo Nemotron Super anterior. Durante a inferência, apenas 12 bilhões dos 120 bilhões de parâmetros estão ativos.

As camadas Mamba fornecem quatro vezes mais memória e eficiência computacional, enquanto as camadas transformadoras padrão gerenciam os complexos requisitos de raciocínio. Uma técnica latente aumenta a precisão ao contratar quatro especialistas especializados pelo custo de um durante a geração do token. O sistema também antecipa múltiplas palavras futuras ao mesmo tempo, acelerando três vezes a velocidade de inferência.

Operando na plataforma Blackwell, a arquitetura utiliza precisão NVFP4. Essa configuração reduz as necessidades de memória e torna a inferência até quatro vezes mais rápida do que as configurações FP8 em sistemas Hopper, tudo sem sacrificar a precisão.

Traduzindo a capacidade de automação em resultados de negócios

O sistema oferece uma janela de contexto de um milhão de tokens, permitindo que os agentes mantenham todo o estado do fluxo de trabalho na memória e abordando diretamente o risco de desvio de meta. Um agente de desenvolvimento de software pode carregar uma base de código inteira no contexto simultaneamente, permitindo a geração e depuração de código de ponta a ponta sem a necessidade de segmentação de documentos.

Na análise financeira, o sistema pode carregar milhares de páginas de relatórios na memória, melhorando a eficiência ao eliminar a necessidade de re-raciocinar em longas conversas. A chamada de ferramentas de alta precisão garante que agentes autônomos naveguem com segurança em grandes bibliotecas de funções, evitando erros de execução em ambientes de alto risco, como orquestração de segurança autônoma na segurança cibernética.

Os líderes do setor – incluindo Amdocs, Palantir, Cadence, Dassault Systèmes e Siemens – estão implantando e personalizando o modelo para automatizar fluxos de trabalho em telecomunicações, segurança cibernética, design de semicondutores e fabricação.

Plataformas de desenvolvimento de software como CodeRabbit, Factory e Greptile estão integrando-o a modelos proprietários para obter maior precisão a custos mais baixos. Empresas de ciências biológicas como Edison Scientific e Lila Sciences irão usá-lo para capacitar agentes para pesquisas profundas de literatura, ciência de dados e compreensão molecular.

A arquitetura também leva o agente AI-Q à primeira posição nas tabelas de classificação do DeepResearch Bench e do DeepResearch Bench II, destacando sua capacidade de pesquisa em várias etapas em grandes conjuntos de documentos, mantendo a coerência do raciocínio.

Por fim, o modelo conquistou o primeiro lugar em Análise Artificial em eficiência e abertura, apresentando precisão líder entre modelos de seu tamanho.

Implementação e alinhamento de infraestrutura

Construída para lidar com subtarefas complexas em sistemas multiagentes, a flexibilidade de implantação continua sendo uma prioridade para os líderes que impulsionam a automação comercial.

A NVIDIA lançou o modelo com pesos abertos sob uma licença permissiva, permitindo que os desenvolvedores o implantassem e personalizassem em estações de trabalho, data centers ou ambientes de nuvem. Ele é empacotado como um microsserviço NVIDIA NIM para auxiliar nessa ampla implantação de sistemas locais para a nuvem.

A arquitetura foi treinada em dados sintéticos gerados por modelos de raciocínio de fronteira. A NVIDIA publicou a metodologia completa, abrangendo mais de 10 trilhões de tokens de conjuntos de dados pré e pós-treinamento, 15 ambientes de treinamento para aprendizagem por reforço e receitas de avaliação. Os pesquisadores podem ajustar ainda mais o modelo ou construir o seu próprio usando a plataforma NeMo.

Qualquer executivo que planeje uma implementação de digitalização deve abordar antecipadamente a explosão de contexto e a taxa de pensamento para evitar desvios de metas e excessos de custos em fluxos de trabalho de agentes. O estabelecimento de uma supervisão arquitetónica abrangente garante que estes agentes sofisticados permanecem alinhados com as diretivas corporativas, gerando ganhos de eficiência sustentáveis ​​e promovendo a automação empresarial em toda a organização.

Veja também: Ai2: Construindo IA física com dados de simulação virtual

Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes, incluindo o Cyber ​​Security & Cloud Expo. Clique aqui para mais informações.

AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.

Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *