Zyphra, AMD e IBM passaram um ano testando se as GPUs e a plataforma da AMD podem suportar o treinamento de modelos de IA em larga escala, e o resultado é ZAYA1.
Em parceria, as três empresas treinaram o ZAYA1 – descrito como o primeiro grande modelo de base de mistura de especialistas construído inteiramente em GPUs e redes AMD – que consideram uma prova de que o mercado não precisa depender da NVIDIA para dimensionar a IA.
O modelo foi treinado nos chips Instinct MI300X da AMD, na rede Pensando e no software ROCm, todos executados na infraestrutura da IBM Cloud. O que é notável é a aparência convencional da configuração. Em vez de hardware experimental ou configurações obscuras, a Zyphra construiu o sistema como qualquer cluster empresarial – só que sem os componentes da NVIDIA.
Zyphra diz que o ZAYA1 tem um desempenho igual e, em algumas áreas, à frente de modelos abertos bem estabelecidos em raciocínio, matemática e código. Para empresas frustradas com restrições de fornecimento ou preços crescentes de GPU, isso equivale a algo raro: uma segunda opção que não exige comprometimento da capacidade.
Como a Zyphra usou GPUs AMD para cortar custos sem prejudicar o desempenho do treinamento de IA
A maioria das organizações segue a mesma lógica ao planejar orçamentos de treinamento: capacidade de memória, velocidade de comunicação e tempos de iteração previsíveis são mais importantes do que o rendimento teórico bruto.
Os 192 GB de memória de alta largura de banda do MI300X por GPU oferecem aos engenheiros algum espaço para respirar, permitindo execuções iniciais de treinamento sem recorrer imediatamente a paralelismo pesado. Isso tende a simplificar projetos que, de outra forma, seriam frágeis e demorados para serem ajustados.
A Zyphra construiu cada nó com oito GPUs MI300X conectadas através do InfinityFabric e emparelhou cada uma com sua própria placa de rede Pollara. Uma rede separada lida com leituras e pontos de verificação de conjuntos de dados. É um design simples, mas esse parece ser o ponto; quanto mais simples for a fiação e o layout da rede, menores serão os custos de comutação e mais fácil será manter os tempos de iteração estáveis.
ZAYA1: Um modelo de IA que supera seu peso
O ZAYA1-base ativa 760 milhões de parâmetros de um total de 8,3 bilhões e foi treinado em 12 trilhões de tokens em três estágios. A arquitetura se baseia em atenção compactada, um sistema de roteamento refinado para direcionar os tokens aos especialistas certos e um escalonamento residual mais leve para manter estáveis as camadas mais profundas.
O modelo usa uma mistura de Muon e AdamW. Para tornar o Muon eficiente em hardware AMD, o Zyphra fundiu kernels e reduziu o tráfego de memória desnecessário para que o otimizador não dominasse cada iteração. Os tamanhos dos lotes aumentaram ao longo do tempo, mas isso depende muito de pipelines de armazenamento que possam entregar tokens com rapidez suficiente.
Tudo isso leva a um modelo de IA treinado em hardware AMD que compete com concorrentes maiores, como Qwen3-4B, Gemma3-12B, Llama-3-8B e OLMoE. Uma vantagem da estrutura do MoE é que apenas uma parte do modelo é executada de uma só vez, o que ajuda a gerenciar a memória de inferência e reduz o custo de serviço.
Um banco, por exemplo, poderia treinar um modelo específico de domínio para investigações sem precisar de paralelismo complicado desde o início. O espaço de memória do MI300X dá aos engenheiros espaço para iterar, enquanto a atenção compactada do ZAYA1 reduz o tempo de pré-preenchimento durante a avaliação.
Fazendo o ROCm se comportar com GPUs AMD
Zyphra não escondeu o fato de que migrar um fluxo de trabalho maduro baseado em NVIDIA para ROCm deu trabalho. Em vez de portar componentes às cegas, a equipe passou um tempo medindo como o hardware AMD se comportava e remodelando as dimensões do modelo, padrões GEMM e tamanhos de microlotes para se adequar aos intervalos de computação preferidos do MI300X.
O InfinityFabric funciona melhor quando todas as oito GPUs em um nó participam de coletivos, e Pollara tende a atingir o pico de rendimento com mensagens maiores, então o Zyphra dimensionou os buffers de fusão de acordo. O treinamento de longo contexto, de 4k a 32k tokens, dependia da atenção do anel para sequências fragmentadas e da atenção da árvore durante a decodificação para evitar gargalos.
As considerações de armazenamento eram igualmente práticas. Modelos menores martelam IOPS; os maiores precisam de largura de banda sustentada. Zyphra agrupou fragmentos de conjuntos de dados para reduzir leituras dispersas e aumentar o cache de páginas por nó para acelerar a recuperação de pontos de verificação, o que é vital durante longas execuções, onde retrocessos são inevitáveis.
Mantendo os clusters em pé
Os trabalhos de treinamento que duram semanas raramente se comportam perfeitamente. O serviço Aegis da Zyphra monitora logs e métricas do sistema, identifica falhas como falhas de NIC ou falhas de ECC e executa ações corretivas diretas automaticamente. A equipe também aumentou os tempos limite do RCCL para evitar que pequenas interrupções na rede eliminassem trabalhos inteiros.
O checkpoint é distribuído por todas as GPUs, em vez de forçado através de um único ponto de estrangulamento. Zyphra relata economias dez vezes mais rápidas em comparação com abordagens simples, o que melhora diretamente o tempo de atividade e reduz a carga de trabalho do operador.
O que o marco de treinamento ZAYA1 AMD significa para aquisição de IA
O relatório traça uma linha clara entre o ecossistema da NVIDIA e os equivalentes da AMD: NVLINK vs InfinityFabric, NCCL vs RCCL, cuBLASLt vs hipBLASLt e assim por diante. Os autores argumentam que a pilha AMD agora está madura o suficiente para o desenvolvimento sério de modelos em grande escala.
Nada disso sugere que as empresas devam eliminar os clusters NVIDIA existentes. Um caminho mais realista é manter a NVIDIA para produção enquanto usa a AMD para estágios que se beneficiam da capacidade de memória das GPUs MI300X e da abertura do ROCm. Ele distribui o risco do fornecedor e aumenta o volume total de treinamento sem grandes interrupções.
Tudo isto nos leva a um conjunto de recomendações: tratar a forma do modelo como ajustável, não fixa; projete redes em torno das operações coletivas que seu treinamento realmente utilizará; crie tolerância a falhas que proteja as horas da GPU em vez de apenas registrar falhas; e modernizar os pontos de verificação para que não atrapalhem mais o ritmo de treinamento.
Não é um manifesto, apenas nossa conclusão prática do que Zyphra, AMD e IBM aprenderam ao treinar um grande modelo de IA MoE em GPUs AMD. Para organizações que buscam expandir a capacidade de IA sem depender apenas de um fornecedor, este é um modelo potencialmente útil.
Veja também: Google se compromete com 1.000 vezes mais infraestrutura de IA nos próximos 4 a 5 anos
Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes, incluindo a Cyber Security Expo. Clique aqui para mais informações.
AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.
Fontesartificialintelligence



