Quando os data centers de IA ficam sem espaço, eles enfrentam um dilema caro: construir instalações maiores ou encontrar maneiras de fazer com que vários locais funcionem juntos sem problemas. A mais recente tecnologia Ethernet Spectrum-XGS da NVIDIA promete resolver esse desafio, conectando data centers de IA em vastas distâncias ao que a empresa chama de “super fatores de AI em escala de giga”.
Anunciado à frente do Hot Chips 2025, essa inovação em rede representa a resposta da empresa a um problema crescente que está forçando o setor de IA a repensar como a energia computacional é distribuída.
O problema: quando um edifício não é suficiente
À medida que os modelos de inteligência artificial se tornam mais sofisticados e exigentes, eles exigem enorme poder computacional que geralmente excede o que qualquer instalação pode fornecer. Os data centers tradicionais de IA enfrentam restrições na capacidade de energia, espaço físico e recursos de resfriamento.
Quando as empresas precisam de mais poder de processamento, normalmente precisam construir instalações totalmente novas – mas o trabalho de coordenação entre locais separados tem sido problemático devido a limitações de rede. A questão está na infraestrutura Ethernet padrão, que sofre de alta latência e flutuações de desempenho imprevisíveis (chamadas “jitter”) e velocidades inconsistentes de transferência de dados ao conectar locais distantes.
Esses problemas dificultam a distribuição de cálculos complexos eficientemente em vários locais.
Solução da NVIDIA: Tecnologia Aceross de Escala
O Spectrum-XGS Ethernet apresenta o que a NVIDIA chama de capacidade de “acrossário de escala”-uma terceira abordagem da computação de IA que complementa as estratégias existentes de “escala” (tornando os processadores individuais mais poderosos) e “escala” (adicionando mais processadores no mesmo local).
A tecnologia se integra à plataforma Spectrum-X Ethernet existente da NVIDIA e inclui várias inovações importantes:
- Algoritmos adaptativos à distância que ajustam automaticamente o comportamento da rede com base na distância física entre as instalações
- Controle avançado de congestionamento isso impede gargalos de dados durante a transmissão de longa distância
- Gerenciamento de latência de precisão para garantir tempos de resposta previsíveis
- Telemetria de ponta a ponta Para monitoramento e otimização de rede em tempo real
De acordo com o anúncio da NVIDIA, essas melhorias podem “quase dobrar o desempenho da biblioteca de comunicações coletivas da NVIDIA”, que lida com a comunicação entre várias unidades de processamento de gráficos (GPUs) e nós de computação.
Implementação do mundo real
A CoreWeave, uma empresa de infraestrutura em nuvem especializada em computação acelerada por GPU, planeja estar entre os primeiros adotantes do Spectrum-XGS Ethernet.
“Com o Nvidia Spectrum-XGS, podemos conectar nossos data centers a um único supercomputador unificado, dando aos nossos clientes acesso à IA em escala de giga que acelerará os avanços em todos os setores”, disse Peter Salanki, co-fundador e diretor de tecnologia da CoreWeave.
Essa implantação servirá como um caso de teste prático para se a tecnologia pode cumprir suas promessas em condições do mundo real.
Contexto e implicações da indústria
O anúncio segue uma série de lançamentos focados em rede da NVIDIA, incluindo a plataforma Spectrum-X original e os interruptores fotônicos de silício Quantum-X. Esse padrão sugere que a empresa reconhece a infraestrutura de rede como um gargalo crítico no desenvolvimento da IA.
“A revolução industrial da IA está aqui, e as fábricas de IA em escala gigante são a infraestrutura essencial”, disse Jensen Huang, fundador e CEO da Nvidia, no comunicado à imprensa. Embora a caracterização de Huang reflita a perspectiva de marketing da Nvidia, o desafio subjacente que ele descreve – a necessidade de mais capacidade computacional – é reconhecido em toda a indústria de IA.
A tecnologia pode potencialmente impactar como os data centers de IA são planejados e operados. Em vez de construir instalações únicas enormes que forçam as grades locais e os mercados imobiliários, as empresas podem distribuir sua infraestrutura em vários locais menores, mantendo os níveis de desempenho.
Considerações e limitações técnicas
No entanto, vários fatores podem influenciar a eficácia prática do Spectrum-XGS Ethernet. O desempenho da rede em longas distâncias permanece sujeito a limitações físicas, incluindo a velocidade da luz e a qualidade da infraestrutura da Internet subjacente entre os locais. O sucesso da tecnologia dependerá amplamente de quão bem ela pode funcionar dentro dessas restrições.
Além disso, a complexidade do gerenciamento de data centers de IA distribuídos se estende além da rede para incluir a sincronização de dados, a tolerância a falhas e a conformidade regulatória em diferentes jurisdições – agitados que as melhorias em rede não podem resolver.
Disponibilidade e impacto no mercado
A NVIDIA afirma que o Spectrum-XGS Ethernet está “disponível agora” como parte da plataforma Spectrum-X, embora os preços e prazos específicos de implantação não tenham sido divulgados. A taxa de adoção da tecnologia provavelmente dependerá de custo-efetividade em comparação com abordagens alternativas, como a criação de instalações maiores de sites únicos ou o uso de soluções de rede existentes.
O ponto principal para consumidores e empresas é o seguinte: se a tecnologia da Nvidia funcionar como prometido, poderíamos ver serviços de IA mais rápidos, aplicativos mais poderosos e custos potencialmente mais baixos à medida que as empresas ganham eficiência por meio da computação distribuída. No entanto, se a tecnologia deixar de oferecer em condições do mundo real, as empresas de IA continuarão enfrentando a escolha cara entre a construção de instalações únicas cada vez maiores ou a aceitação de compromissos de desempenho.
O próximo implantação da CoreWeaves servirá como o primeiro grande teste para que a conexão de data centers de IA entre as distâncias possa realmente funcionar em escala. Os resultados provavelmente determinarão se outras empresas seguem o exemplo ou aderem às abordagens tradicionais. Por enquanto, a Nvidia apresentou uma visão ambiciosa – mas a indústria da IA ainda está esperando para ver se a realidade corresponde à promessa.
Veja também: novo chip Nvidia Blackwell para a China pode superar o modelo H20
Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente é co-localizado com outros eventos líderes, incluindo a Conferência de Automação Inteligente, Blockx, Digital Transformation Week e Cyber Security & Cloud Expo.
Explore outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.
Fontesartificialintelligence