Meta and Oracle choose NVIDIA Spectrum-X for AI data centres

A Meta e a Oracle estão atualizando seus data centers de IA com os switches de rede Ethernet Spectrum-X da NVIDIA – tecnologia desenvolvida para lidar com as crescentes demandas de sistemas de IA em grande escala. Ambas as empresas estão adotando o Spectrum-X como parte de uma estrutura de rede aberta projetada para melhorar a eficiência do treinamento de IA e acelerar a implantação em grandes clusters de computação.

Jensen Huang, fundador e CEO da NVIDIA, disse que modelos de trilhões de parâmetros estão transformando data centers em “fábricas de IA em escala gigantesca”, acrescentando que o Spectrum-X atua como o “sistema nervoso” conectando milhões de GPUs para treinar os maiores modelos já construídos.

A Oracle planeja usar Spectrum-X Ethernet com sua arquitetura Vera Rubin para construir fábricas de IA em grande escala. Mahesh Thiagarajan, vice-presidente executivo da Oracle Cloud Infrastructure, disse que a nova configuração permitirá à empresa conectar milhões de GPUs com mais eficiência, ajudando os clientes a treinar e implantar novos modelos de IA com mais rapidez.

Enquanto isso, a Meta está expandindo sua infraestrutura de IA integrando switches Ethernet Spectrum-X ao Facebook Open Switching System (FBOSS), sua plataforma interna para gerenciamento de switches de rede em escala. De acordo com Gaya Nagarajan, vice-presidente de engenharia de redes da Meta, a rede de próxima geração da empresa deve ser aberta e eficiente para suportar modelos de IA cada vez maiores e fornecer serviços a bilhões de usuários.

Construindo sistemas de IA flexíveis

De acordo com Joe DeLaere, que lidera o portfólio de soluções de computação acelerada para data centers da NVIDIA, a flexibilidade é fundamental à medida que os data centers se tornam mais complexos. Ele explicou que o sistema MGX da NVIDIA oferece um design modular e básico que permite aos parceiros combinar diferentes CPUs, GPUs, armazenamento e componentes de rede conforme necessário.

O sistema também promove a interoperabilidade, permitindo que as organizações utilizem o mesmo design em múltiplas gerações de hardware. “Ele oferece flexibilidade, tempo de lançamento no mercado mais rápido e preparação para o futuro”, disse DeLaere à mídia.

À medida que os modelos de IA se tornam maiores, a eficiência energética tornou-se um desafio central para os data centers. DeLaere disse que a NVIDIA está trabalhando “do chip à rede” para melhorar o uso de energia e a escalabilidade, colaborando estreitamente com fornecedores de energia e refrigeração para maximizar o desempenho por watt.

Um exemplo é a mudança para o fornecimento de energia CC de 800 volts, o que reduz a perda de calor e melhora a eficiência. A empresa também está introduzindo tecnologia de suavização de energia para reduzir picos na rede elétrica – uma abordagem que pode reduzir as necessidades máximas de energia em até 30%, permitindo mais capacidade computacional dentro do mesmo espaço ocupado.

Ampliando, ampliando e ampliando

O sistema MGX da NVIDIA também desempenha um papel na forma como os data centers são dimensionados. Gilad Shainer, vice-presidente sênior de redes da empresa, disse à mídia que os racks MGX hospedam componentes de computação e comutação, suportando NVLink para conectividade escalonada e Spectrum-X Ethernet para crescimento escalonado.

Ele acrescentou que o MGX pode conectar vários data centers de IA como um sistema unificado – o que empresas como a Meta precisam para oferecer suporte a operações massivas de treinamento de IA distribuídas. Dependendo da distância, eles podem conectar sites através de fibra escura ou switches adicionais baseados em MGX, permitindo conexões de alta velocidade entre regiões.

A adoção do Spectrum-X pela IA da Meta reflete a crescente importância da rede aberta. Shainer disse que a empresa usará o FBOSS como sistema operacional de rede, mas observou que o Spectrum-X oferece suporte a vários outros, incluindo Cumulus, SONiC e NOS da Cisco por meio de parcerias. Essa flexibilidade permite que hiperscaladores e empresas padronizem sua infraestrutura usando os sistemas que melhor se adaptam aos seus ambientes.

Expandindo o ecossistema de IA

A NVIDIA vê o Spectrum-X como uma forma de tornar a infraestrutura de IA mais eficiente e acessível em diferentes escalas. Shainer disse que a plataforma Ethernet foi projetada especificamente para cargas de trabalho de IA, como treinamento e inferência, oferecendo largura de banda efetiva de até 95% e superando a Ethernet tradicional por uma ampla margem.

Ele acrescentou que as parcerias da NVIDIA com empresas como Cisco, xAI, Meta e Oracle Cloud Infrastructure estão ajudando a levar o Spectrum-X a uma gama mais ampla de ambientes – de hiperescaladores a empresas.

Preparando-se para Vera Rubin e além

DeLaere disse que a próxima arquitetura Vera Rubin da NVIDIA deverá estar disponível comercialmente no segundo semestre de 2026, com o produto Rubin CPX chegando até o final do ano. Ambos trabalharão junto com a rede Spectrum-X e os sistemas MGX para apoiar a próxima geração de fábricas de IA.

Ele também esclareceu que Spectrum-X e XGS compartilham o mesmo hardware central, mas usam algoritmos diferentes para distâncias variadas – Spectrum-X para data centers internos e XGS para comunicação entre data centers. Essa abordagem minimiza a latência e permite que vários locais operem juntos como um único grande supercomputador de IA.

Colaborando em toda a cadeia de energia

Para apoiar a transição de 800 volts DC, a NVIDIA está trabalhando com parceiros desde o nível do chip até a rede. A empresa está colaborando com Onsemi e Infineon em componentes de energia, com Delta, Flex e Lite-On no nível de rack, e com Schneider Electric e Siemens em projetos de data centers. Um documento técnico detalhando esta abordagem será lançado na Cúpula do OCP.

DeLaere descreveu isso como um “design holístico do silício ao fornecimento de energia”, garantindo que todos os sistemas funcionem perfeitamente juntos em ambientes de IA de alta densidade operados por empresas como Meta e Oracle.

Vantagens de desempenho para hiperescaladores

O Spectrum-X Ethernet foi desenvolvido especificamente para computação distribuída e cargas de trabalho de IA. Shainer disse que oferece roteamento adaptativo e controle de congestionamento baseado em telemetria para eliminar pontos de acesso de rede e fornecer desempenho estável. Esses recursos permitem maiores velocidades de treinamento e inferência, ao mesmo tempo que permitem que várias cargas de trabalho sejam executadas simultaneamente sem interferência.

Ele acrescentou que o Spectrum-X é a única tecnologia Ethernet comprovada para escalar em níveis extremos, ajudando as organizações a obter o melhor desempenho e retorno sobre seus investimentos em GPU. Para hiperscaladores como o Meta, essa escalabilidade ajuda a gerenciar as crescentes demandas de treinamento em IA e a manter a infraestrutura eficiente.

Hardware e software trabalhando juntos

Embora o foco da NVIDIA esteja frequentemente no hardware, DeLaere disse que a otimização de software é igualmente importante. A empresa continua a melhorar o desempenho através do co-design – alinhando o desenvolvimento de hardware e software para maximizar a eficiência dos sistemas de IA.

A NVIDIA está investindo em kernels FP4, estruturas como Dynamo e TensorRT-LLM e algoritmos como decodificação especulativa para melhorar o rendimento e o desempenho do modelo de IA. Essas atualizações, disse ele, garantem que sistemas como o Blackwell continuem a fornecer melhores resultados ao longo do tempo para hiperscaladores como o Meta, que dependem de desempenho consistente de IA.

Rede para a era dos trilhões de parâmetros

A plataforma Spectrum-X — que inclui switches Ethernet e SuperNICs — é o primeiro sistema Ethernet da NVIDIA desenvolvido especificamente para cargas de trabalho de IA. Ele foi projetado para conectar milhões de GPUs de maneira eficiente e, ao mesmo tempo, manter um desempenho previsível em data centers de IA.

Com a tecnologia de controle de congestionamento atingindo até 95% de taxa de transferência de dados, o Spectrum-X marca um grande salto em relação à Ethernet padrão, que normalmente atinge apenas cerca de 60% devido a colisões de fluxo. Sua tecnologia XGS também oferece suporte a links de data center de IA de longa distância, conectando instalações entre regiões em “superfábricas de IA” unificadas.

Ao unir toda a pilha da NVIDIA – GPUs, CPUs, NVLink e software – o Spectrum-X fornece o desempenho consistente necessário para suportar modelos de trilhões de parâmetros e a próxima onda de cargas de trabalho generativas de IA.

(Foto da Nvidia)

Veja também: OpenAI e Nvidia planejam acordo de chips de US$ 100 bilhões para o futuro da IA

Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e é realizado junto com outros eventos líderes de tecnologia. Clique aqui para obter mais informações.

AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.

Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *