A Cisco entrou em uma corrida cada vez mais competitiva para dominar a tecnologia de interconexão de data centers de IA, tornando-se o mais recente grande player a revelar hardware de roteamento desenvolvido especificamente para conectar cargas de trabalho de IA distribuídas em múltiplas instalações.
A gigante das redes revelou seu sistema de roteamento 8223 em 8 de outubro, apresentando o que afirma ser o primeiro roteador fixo de 51,2 terabit por segundo do setor, projetado especificamente para conectar data centers que executam cargas de trabalho de IA.
Em sua essência está o novo chip Silicon One P200, que representa a resposta da Cisco a um desafio que restringe cada vez mais a indústria de IA: o que acontece quando você fica sem espaço para crescer.
Uma batalha de três vias pela supremacia em escala?
Para contextualizar, a Cisco não está sozinha ao reconhecer esta oportunidade. A Broadcom disparou a primeira salva em meados de agosto com seus chips de switch/roteador StrataDNX “Jericho 4”, que começaram a amostragem e também ofereceram 51,2 Tb/s de largura de banda agregada apoiada por memória HBM para buffer profundo de pacotes para gerenciar congestionamentos.
Duas semanas após o anúncio da Broadcom, a Nvidia revelou sua rede escalável Spectrum-XGS – um nome notavelmente atrevido, visto que os ASICs de switch “Trident” e “Tomahawk” da Broadcom pertencem à família StrataXGS.
A Nvidia garantiu o CoreWeave como seu cliente âncora, mas forneceu detalhes técnicos limitados sobre os ASICs Spectrum-XGS. Agora a Cisco está a lançar os seus próprios componentes para o mercado de redes escaláveis, estabelecendo uma competição de três vias entre os pesos pesados da rede.
O problema: a IA é grande demais para um edifício
Para entender por que vários fornecedores estão invadindo esse espaço, considere a escala da infraestrutura moderna de IA. Treinar grandes modelos de linguagem ou executar sistemas complexos de IA requer milhares de processadores de alta potência trabalhando em conjunto, gerando enormes quantidades de calor e consumindo enormes quantidades de eletricidade.
Os data centers estão atingindo limites rígidos – não apenas no espaço disponível, mas na quantidade de energia que podem fornecer e resfriar.
“A computação de IA está ultrapassando a capacidade até mesmo do maior data center, impulsionando a necessidade de conexões confiáveis e seguras de data centers distantes a centenas de quilômetros de distância”, disse Martin Lund, vice-presidente executivo do Common Hardware Group da Cisco.
A indústria tem tradicionalmente abordado os desafios de capacidade através de duas abordagens: expansão (adicionando mais capacidade a sistemas individuais) ou expansão (conectando mais sistemas dentro da mesma instalação).
Mas ambas as estratégias estão a atingir os seus limites. Os data centers estão ficando sem espaço físico, as redes elétricas não conseguem fornecer eletricidade suficiente e os sistemas de refrigeração não conseguem dissipar o calor com rapidez suficiente.
Isso força uma terceira abordagem: “escala transversal”, distribuindo cargas de trabalho de IA em vários data centers que podem estar em diferentes cidades ou até mesmo em diferentes estados. Contudo, isto cria um novo problema: as ligações entre estas instalações tornam-se estrangulamentos críticos.
Por que os roteadores tradicionais ficam aquém
As cargas de trabalho de IA se comportam de maneira diferente do tráfego típico de data center. As execuções de treinamento geram padrões de tráfego massivos e em rajadas – períodos de intensa movimentação de dados seguidos de relativo silêncio. Se a rede que conecta os data centers não conseguir absorver esses picos, tudo ficará mais lento, desperdiçando recursos de computação caros e, principalmente, tempo e dinheiro.
O equipamento de roteamento tradicional não foi projetado para isso. A maioria dos roteadores prioriza a velocidade bruta ou o gerenciamento sofisticado de tráfego, mas tem dificuldade para fornecer ambos simultaneamente e, ao mesmo tempo, manter um consumo de energia razoável. Para aplicações de interconexão de data centers de IA, as organizações precisam dos três: velocidade, buffer inteligente e eficiência.
A resposta da Cisco: O sistema 8223
O sistema 8223 da Cisco representa um afastamento dos equipamentos de roteamento de uso geral. Alojado em um chassi compacto de três unidades de rack, ele oferece 64 portas de conectividade de 800 gigabits – atualmente a mais alta densidade disponível em um sistema de roteamento fixo. Mais importante ainda, ele pode processar mais de 20 bilhões de pacotes por segundo e escalar até três Exabytes por segundo de largura de banda de interconexão.
A característica distintiva do sistema é a capacidade de buffer profundo, habilitada pelo chip P200. Pense nos buffers como áreas de retenção temporária de dados – como um reservatório que capta água durante chuvas fortes. Quando o treinamento de IA gera picos de tráfego, os buffers do 8223 absorvem o pico, evitando o congestionamento da rede que, de outra forma, retardaria clusters de GPU caros, ociosos, aguardando dados.
A eficiência energética é outra vantagem crítica. Como um sistema 3RU, o 8223 alcança o que a Cisco descreve como “eficiência energética semelhante à de um switch”, mantendo ao mesmo tempo as capacidades de roteamento – crucial quando os data centers já estão sobrecarregando os orçamentos de energia.
O sistema também suporta óptica coerente de 800G, permitindo conexões que abrangem até 1.000 quilômetros entre instalações – essencial para a distribuição geográfica da infraestrutura de IA.
Adoção da indústria e aplicações do mundo real
Os principais hiperscaladores já estão implantando a tecnologia. A Microsoft, uma das primeiras a adotar o Silicon One, considerou a arquitetura valiosa em vários casos de uso.
Dave Maltz, pesquisador técnico e vice-presidente corporativo de Azure Networking da Microsoft, observou que “a arquitetura ASIC comum tornou mais fácil para nós expandirmos de nossos casos de uso iniciais para múltiplas funções em ambientes DC, WAN e AI/ML”.
Alibaba Cloud planeja usar o P200 como base para expandir sua arquitetura eCore. Dennis Cai, vice-presidente e chefe de infraestrutura de rede da Alibaba Cloud, afirmou que o chip “nos permitirá estender-nos para a rede Core, substituindo os roteadores tradicionais baseados em chassis por um cluster de dispositivos com tecnologia P200”.
A Lumen também está explorando como a tecnologia se encaixa em seus planos de infraestrutura de rede. Dave Ward, diretor de tecnologia e diretor de produtos da Lumen, disse que a empresa está “explorando como a nova tecnologia Cisco 8223 pode se encaixar em nossos planos para melhorar o desempenho da rede e oferecer serviços superiores aos nossos clientes”.
Programabilidade: Preparando o investimento para o futuro
Um aspecto frequentemente esquecido da infraestrutura de interconexão de data centers de IA é a adaptabilidade. Os requisitos de rede de IA estão evoluindo rapidamente, com novos protocolos e padrões surgindo regularmente.
O hardware tradicional normalmente requer substituição ou atualizações caras para suportar novos recursos. A programabilidade do P200 aborda esse desafio.
As organizações podem atualizar o silício para oferecer suporte a protocolos emergentes sem substituir o hardware – o que é importante quando os sistemas de roteamento individuais representam investimentos de capital significativos e os padrões de rede de IA permanecem em constante mudança.
Considerações de segurança
Conectar data centers separados por centenas de quilômetros apresenta desafios de segurança. O 8223 inclui criptografia de taxa de linha usando algoritmos resilientes pós-quânticos, abordando preocupações sobre ameaças futuras da computação quântica. A integração com as plataformas de observabilidade da Cisco fornece monitoramento detalhado da rede para identificar e resolver problemas rapidamente.
A Cisco pode competir?
Com a Broadcom e a Nvidia já apostando nas suas reivindicações no mercado de redes escaláveis, a Cisco enfrenta uma concorrência estabelecida. No entanto, a empresa traz vantagens: uma presença de longa data em redes empresariais e de prestadores de serviços, o portfólio maduro Silicon One lançado em 2019 e relacionamentos com grandes hiperescaladores que já utilizam sua tecnologia.
O 8223 é fornecido inicialmente com suporte SONiC de código aberto, com IOS XR planejado para disponibilidade futura. O P200 estará disponível em vários tipos de plataformas, incluindo sistemas modulares e o portfólio Nexus.
Esta flexibilidade nas opções de implementação pode ser decisiva à medida que as organizações procuram evitar a dependência de fornecedores enquanto constroem infraestruturas de IA distribuídas.
Ainda não se sabe se a abordagem da Cisco se tornará o padrão da indústria para interconexão de data centers de IA, mas o problema fundamental que todos os três fornecedores estão abordando – conectar eficientemente a infraestrutura de IA distribuída – só se tornará mais urgente à medida que os sistemas de IA continuarem a escalar além dos limites de uma única instalação.
O verdadeiro vencedor pode, em última análise, ser determinado não apenas pelas especificações técnicas, mas por qual fornecedor pode fornecer o ecossistema mais completo de software, suporte e recursos de integração em torno de seu silício.
Veja também:
Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes, incluindo a Cyber Security Expo. Clique aqui para obter mais informações.
AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.
Fontesartificialintelligence