<em>(Credit: NVIDIA)</em>

A Agentic AI representa uma evolução distinta dos chatbots sem estado em direção a fluxos de trabalho complexos, e seu escalonamento requer uma nova arquitetura de memória.

À medida que os modelos básicos se expandem para trilhões de parâmetros e as janelas de contexto atingem milhões de tokens, o custo computacional de lembrar o histórico está aumentando mais rapidamente do que a capacidade de processá-lo.

As organizações que implantam esses sistemas enfrentam agora um gargalo onde o grande volume de “memória de longo prazo” (tecnicamente conhecido como cache de valor-chave (KV)) sobrecarrega as arquiteturas de hardware existentes.

A infraestrutura atual força uma escolha binária: armazenar o contexto de inferência em uma memória GPU escassa e de alta largura de banda (HBM) ou relegá-lo para um armazenamento lento e de uso geral. O primeiro é proibitivamente caro para grandes contextos; o último cria latência que torna inviáveis ​​as interações agentes em tempo real.

Para lidar com essa disparidade crescente que está impedindo o dimensionamento da IA ​​de agência, a NVIDIA introduziu a plataforma Inference Context Memory Storage (ICMS) em sua arquitetura Rubin, propondo um novo nível de armazenamento projetado especificamente para lidar com a natureza efêmera e de alta velocidade da memória de IA.

“A IA está revolucionando toda a pilha de computação – e agora, o armazenamento”, disse Huang. “A IA não se trata mais de chatbots únicos, mas de colaboradores inteligentes que entendem o mundo físico, raciocinam em horizontes longos, permanecem fundamentados em fatos, usam ferramentas para realizar trabalho real e retêm memória de curto e longo prazo.”

O desafio operacional reside no comportamento específico dos modelos baseados em transformadores. Para evitar o recálculo de todo um histórico de conversação para cada nova palavra gerada, os modelos armazenam estados anteriores no cache KV. Em fluxos de trabalho de agente, esse cache atua como memória persistente entre ferramentas e sessões, crescendo linearmente com o comprimento da sequência.

Isso cria uma classe de dados distinta. Ao contrário dos registros financeiros ou logs de clientes, o cache KV são dados derivados; é essencial para desempenho imediato, mas não exige as garantias de grande durabilidade dos sistemas de arquivos corporativos. Pilhas de armazenamento de uso geral, executadas em CPUs padrão, gastam energia no gerenciamento e replicação de metadados que as cargas de trabalho de agente não exigem.

A hierarquia atual, que vai da GPU HBM (G1) ao armazenamento compartilhado (G4), está se tornando ineficiente:

(Crédito: NVIDIA)

À medida que o contexto passa da GPU (G1) para a RAM do sistema (G2) e, eventualmente, para o armazenamento compartilhado (G4), a eficiência cai. Mover o contexto ativo para a camada G4 introduz latência no nível de milissegundos e aumenta o custo de energia por token, deixando GPUs caras ociosas enquanto aguardam dados.

Para a empresa, isso se manifesta como um custo total de propriedade (TCO) inchado, onde a energia é desperdiçada em despesas gerais de infraestrutura, em vez de raciocínio ativo.

Um novo nível de memória para a fábrica de IA

A resposta da indústria envolve a inserção de uma camada específica nesta hierarquia. A plataforma ICMS estabelece um nível “G3.5” – uma camada flash conectada à Ethernet projetada explicitamente para inferência em gigaescala.

Essa abordagem integra o armazenamento diretamente no pod de computação. Ao utilizar o processador de dados NVIDIA BlueField-4, a plataforma descarrega o gerenciamento desses dados de contexto da CPU host. O sistema fornece petabytes de capacidade compartilhada por pod, aumentando o dimensionamento da IA ​​de agente, permitindo que os agentes retenham grandes quantidades de histórico sem ocupar o caro HBM.

O benefício operacional é quantificável em rendimento e energia. Ao manter o contexto relevante neste nível intermediário – que é mais rápido que o armazenamento padrão, mas mais barato que o HBM – o sistema pode “pré-preparar” a memória de volta para a GPU antes que ela seja necessária. Isso reduz o tempo ocioso do decodificador de GPU, permitindo tokens por segundo (TPS) até 5x maiores para cargas de trabalho de contexto longo.

Do ponto de vista energético, as implicações são igualmente mensuráveis. Como a arquitetura elimina a sobrecarga dos protocolos de armazenamento de uso geral, ela oferece eficiência energética 5x melhor do que os métodos tradicionais.

Integrando o plano de dados

A implementação dessa arquitetura requer uma mudança na forma como as equipes de TI veem a rede de armazenamento. A plataforma ICMS depende da Ethernet NVIDIA Spectrum-X para fornecer a conectividade de alta largura de banda e baixo jitter necessária para tratar o armazenamento flash quase como se fosse memória local.

Para equipes de infraestrutura empresarial, o ponto de integração é a camada de orquestração. Frameworks como NVIDIA Dynamo e Inference Transfer Library (NIXL) gerenciam a movimentação de blocos KV entre camadas.

Essas ferramentas são coordenadas com a camada de armazenamento para garantir que o contexto correto seja carregado na memória da GPU (G1) ou na memória do host (G2) exatamente quando o modelo de IA exigir. A estrutura NVIDIA DOCA oferece suporte adicional a isso, fornecendo uma camada de comunicação KV que trata o cache de contexto como um recurso de primeira classe.

Os principais fornecedores de armazenamento já estão se alinhando com esta arquitetura. Empresas como AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data e WEKA estão construindo plataformas com BlueField-4. Espera-se que essas soluções estejam disponíveis no segundo semestre deste ano.

Redefinindo a infraestrutura para dimensionar a IA agente

A adoção de uma camada de memória de contexto dedicada afeta o planejamento da capacidade e o design do datacenter.

  • Reclassificando dados: Os CIOs devem reconhecer o cache KV como um tipo de dados exclusivo. É “efêmero, mas sensível à latência”, diferente dos dados de conformidade “duráveis ​​e frios”. A camada G3.5 lida com o primeiro, permitindo que o armazenamento G4 durável se concentre em logs e artefatos de longo prazo.
  • Maturidade da orquestração: O sucesso depende de um software que possa posicionar cargas de trabalho de maneira inteligente. O sistema usa orquestração com reconhecimento de topologia (via NVIDIA Grove) para colocar tarefas próximas ao contexto em cache, minimizando a movimentação de dados na malha.
  • Densidade de potência: Ao encaixar mais capacidade utilizável no mesmo espaço de rack, as organizações podem prolongar a vida útil das instalações existentes. No entanto, isto aumenta a densidade de computação por metro quadrado, exigindo um planeamento adequado de refrigeração e distribuição de energia.

A transição para a IA de agência obriga a uma reconfiguração física do datacenter. O modelo predominante de separar completamente a computação do armazenamento lento e persistente é incompatível com as necessidades de recuperação em tempo real de agentes com memória fotográfica.

Ao introduzir uma camada de contexto especializada, as empresas podem dissociar o crescimento da memória do modelo do custo da GPU HBM. Essa arquitetura para IA de agência permite que vários agentes compartilhem um enorme pool de memória de baixo consumo de energia para reduzir o custo de atendimento de consultas complexas e aumentar o escalonamento, permitindo o raciocínio de alto rendimento.

À medida que as organizações planeiam o seu próximo ciclo de investimento em infraestrutura, avaliar a eficiência da hierarquia de memória será tão vital como selecionar a própria GPU.

Veja também: A guerra dos chips de IA em 2025: o que os líderes empresariais aprenderam sobre a realidade da cadeia de suprimentos

Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes. Clique aqui para mais informações.

AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.

Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *