A Huawei lançou seu cluster de chips CloudMatrix 384 AI, um novo sistema para aprendizagem de IA. Ele emprega clusters de processadores Ascend 910C, unidos por meio de links ópticos. A arquitetura distribuída significa que o sistema pode superar as configurações tradicionais de GPU de hardware, especialmente em termos de uso de recursos e tempo no chip, apesar dos chips Ascend individuais serem menos potentes do que os dos concorrentes.
A nova estrutura da Huawei posiciona a gigante da tecnologia como um “desafiador formidável à posição de liderança de mercado da Nvidia, apesar das sanções em curso dos EUA”, afirma a empresa.
Para usar a nova estrutura da Huawei para IA, os engenheiros de dados precisarão adaptar seus fluxos de trabalho, usando estruturas que suportem os processadores Ascend da Huawei, como o MindSpore, que estão disponíveis na Huawei e seus parceiros
Transição da estrutura: de PyTorch/TensorFlow para MindSpore
Ao contrário do ecossistema da NVIDIA, que utiliza predominantemente estruturas como PyTorch e TensorFlow (projetadas para aproveitar ao máximo o CUDA), os processadores Ascend da Huawei têm melhor desempenho quando usados com MindSpore, uma estrutura de aprendizagem profunda desenvolvida pela empresa.
Se os engenheiros de dados já possuem modelos construídos em PyTorch ou TensorFlow, eles provavelmente precisarão converter modelos para o formato MindSpore ou treiná-los novamente usando a API MindSpore.
É importante notar que o MindSpore usa sintaxe, pipelines de treinamento e chamadas de função diferentes do PyTorch ou TensorFlow, portanto, será necessário um certo grau de reengenharia para replicar os resultados das arquiteturas de modelo e pipelines de treinamento. Por exemplo, o comportamento individual do operador varia, como os modos de preenchimento nas camadas de convolução e pooling. Existem também diferenças nos métodos padrão de inicialização de peso.
Usando MindIR para implantação de modelo
MindSpore emprega MindIR (MindSpore Intermediate Representation), um análogo próximo do Nvidia NIM. De acordo com a documentação oficial do MindSpore, uma vez treinado um modelo no MindSpore, ele pode ser exportado usando o utilitário mindspore.export, que converte a rede treinada para o formato MindIR.
Detalhado pelo guia do DeepWiki, a implantação de um modelo para inferência normalmente envolve carregar o modelo MindIR exportado e, em seguida, executar previsões usando APIs de inferência do MindSpore para chips Ascend, que lidam com a desserialização, alocação e execução do modelo.
MindSpore separa a lógica de treinamento e inferência de forma mais explícita do que PyTorch ou TensorFlow. Portanto, todo o pré-processamento precisa corresponder às entradas de treinamento e a execução do gráfico estático deve ser otimizada. MindSpore Lite ou Ascend Model Zoo são recomendados para ajustes adicionais específicos de hardware.
Adaptação ao CANN (Arquitetura de Computação para Redes Neurais)
O CANN da Huawei apresenta um conjunto de ferramentas e bibliotecas personalizadas para o software Ascend, paralelamente ao CUDA da NVIDIA em funcionalidade. A Huawei recomenda o uso das ferramentas de criação de perfil e depuração do CANN para monitorar e melhorar o desempenho do modelo no hardware Ascend.
Modos de execução: GRAPH_MODE vs.PYNATIVE_MODE
MindSpore oferece dois modos de execução:
- GRAPH_MODE – Compila o gráfico de computação antes da execução. Isto pode resultar em uma execução mais rápida e melhor otimização de desempenho, uma vez que o gráfico pode ser analisado durante a compilação.
- PYNATIVE_MODE – Executa operações imediatamente, resultando em processos de depuração mais simples, mais adequados, portanto, para os estágios iniciais de desenvolvimento do modelo, devido ao seu rastreamento de erros mais granular.
Para desenvolvimento inicial, PYNATIVE_MODE é recomendado para testes e depuração iterativos mais simples. Quando os modelos estiverem prontos para serem implantados, mudar para GRAPH_MODE pode ajudar a alcançar eficiência máxima no hardware Ascend. Alternar entre modos permite que as equipes de engenharia equilibrem a flexibilidade de desenvolvimento com o desempenho de implantação.
O código deve ser ajustado para cada modo. Por exemplo, quando estiver em GRAPH_MODE, é melhor evitar o fluxo de controle nativo do Python sempre que possível.
Ambiente de implantação: Huawei ModelArts
Como seria de esperar, o ModelArts da Huawei, a plataforma de desenvolvimento e implantação de IA baseada em nuvem da empresa, está totalmente integrado ao hardware Ascend da Huawei e à estrutura MindSpore. Embora seja comparável a plataformas como AWS SageMaker e Google Vertex AI, é otimizado para os processadores de IA da Huawei.
A Huawei afirma que ModelArts oferece suporte a todo o pipeline, desde rotulagem e pré-processamento de dados até treinamento, implantação e monitoramento de modelos. Cada estágio do pipeline está disponível via API ou interface web.
Resumindo
A adaptação ao MindSpore e ao CANN pode exigir treinamento e tempo, especialmente para equipes acostumadas ao ecossistema da NVIDIA, com engenheiros de dados precisando compreender vários novos processos. Isso inclui como o CANN lida com a compilação e otimização de modelos para hardware Ascend, ajustando ferramentas e pipelines de automação projetados inicialmente para GPUs NVIDIA e aprendendo novas APIs e fluxos de trabalho específicos para MindSpore.
Embora as ferramentas da Huawei estejam evoluindo, elas carecem da maturidade, estabilidade e suporte de ecossistema mais amplo que estruturas como PyTorch com CUDA oferecem. No entanto, a Huawei espera que a migração para os seus processos e infraestrutura compense em termos de resultados e permita que as organizações reduzam a dependência da Nvidia, sediada nos EUA.
Os processadores Ascend da Huawei podem ser poderosos e projetados para cargas de trabalho de IA, mas têm distribuição limitada em alguns países. Equipes fora dos principais mercados da Huawei podem ter dificuldades para testar ou implantar modelos em hardware Ascend, a menos que usem plataformas parceiras, como ModelArts, que oferecem acesso remoto.
Felizmente, a Huawei fornece extensos guias de migração, suporte e recursos para apoiar qualquer transição.
(Fonte da imagem: “Huawei P9” de 405 Mi16 está licenciado sob CC BY-NC-ND 2.0.)
Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e é realizado junto com outros eventos de tecnologia líderes. Clique aqui para mais informações.
AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.
Fontesartificialintelligence



