Enterprises are rethinking AI infrastructure as inference costs riseJay Jenkins, CTO of Cloud Computing at Akamai.

Os gastos com IA na Ásia-Pacífico continuam a aumentar, mas muitas empresas ainda lutam para obter valor dos seus projetos de IA. Muito disso se resume à infraestrutura que dá suporte à IA, já que a maioria dos sistemas não são construídos para executar inferências na velocidade ou na escala que as aplicações reais precisam. Estudos da indústria mostram que muitos projetos não atingem suas metas de ROI, mesmo após investimentos pesados ​​em ferramentas GenAI por causa do problema.

A lacuna mostra o quanto a infraestrutura de IA influencia o desempenho, o custo e a capacidade de dimensionar implantações no mundo real na região.

A Akamai está tentando enfrentar esse desafio com o Inference Cloud, desenvolvido com NVIDIA e equipado com as mais recentes GPUs Blackwell. A ideia é simples: se a maioria das aplicações de IA precisa de tomar decisões em tempo real, então essas decisões devem ser tomadas perto dos utilizadores e não em centros de dados distantes. Essa mudança, afirma a Akamai, pode ajudar as empresas a gerenciar custos, reduzir atrasos e oferecer suporte a serviços de IA que dependem de respostas em frações de segundo.

Jay Jenkins, CTO de Cloud Computing da Akamai, explicou a Notícias sobre IA por que razão este momento está a forçar as empresas a repensar a forma como implementam a IA e por que a inferência, e não a formação, se tornou o verdadeiro estrangulamento.

Por que os projetos de IA enfrentam dificuldades sem a infraestrutura certa

Jenkins diz que a lacuna entre a experimentação e a implantação em grande escala é muito maior do que muitas organizações esperam. “Muitas iniciativas de IA não conseguem entregar o valor comercial esperado porque as empresas muitas vezes subestimam a lacuna entre a experimentação e a produção”, diz ele. Mesmo com um forte interesse na GenAI, as grandes contas de infraestrutura, a alta latência e a dificuldade de executar modelos em escala muitas vezes bloqueiam o progresso.

Jay Jenkins, CTO de computação em nuvem da Akamai.

A maioria das empresas ainda depende de nuvens centralizadas e grandes clusters de GPU. Mas à medida que a utilização aumenta, estas configurações tornam-se demasiado caras, especialmente em regiões distantes das principais zonas de nuvens. A latência também se torna um problema importante quando os modelos precisam executar várias etapas de inferência em longas distâncias. “A IA é tão poderosa quanto a infraestrutura e a arquitetura em que é executada”, diz Jenkins, acrescentando que a latência muitas vezes enfraquece a experiência do usuário e o valor que a empresa esperava oferecer. Ele também aponta configurações multinuvem, regras de dados complexas e necessidades crescentes de conformidade como obstáculos comuns que retardam a transição de projetos piloto para produção.

Por que a inferência agora exige mais atenção do que o treinamento

Em toda a Ásia-Pacífico, a adoção da IA ​​está a passar de pequenos projetos piloto para implementações reais em aplicações e serviços. Jenkins observa que, à medida que isso acontece, a inferência diária – e não o ciclo de treinamento ocasional – é o que consome a maior parte do poder computacional. Com muitas organizações implementando modelos de linguagem, visão e multimodais em vários mercados, a demanda por inferência rápida e confiável está aumentando mais rápido do que o esperado. É por isso que a inferência se tornou o principal constrangimento na região. Os modelos agora precisam operar em diferentes linguagens, regulamentações e ambientes de dados, muitas vezes em tempo real. Isto coloca uma enorme pressão sobre os sistemas centralizados que nunca foram concebidos para este nível de capacidade de resposta.

Como a infraestrutura de ponta melhora o desempenho e o custo da IA

Jenkins diz que aproximar a inferência dos usuários, dispositivos ou agentes pode remodelar a equação de custos. Isso reduz a distância que os dados devem percorrer e permite que os modelos respondam mais rapidamente. Também evita o custo de rotear grandes volumes de dados entre os principais hubs de nuvem.

Os sistemas físicos de IA – robôs, máquinas autônomas ou ferramentas de cidades inteligentes – dependem de decisões tomadas em milissegundos. Quando a inferência é executada de forma distante, esses sistemas não funcionam conforme o esperado.

As economias decorrentes de implantações mais localizadas também podem ser substanciais. Jenkins diz que a análise da Akamai mostra que as empresas na Índia e no Vietnã observam grandes reduções no custo de execução de modelos de geração de imagens quando as cargas de trabalho são colocadas na borda, em vez de nuvens centralizadas. O melhor uso da GPU e as taxas de saída mais baixas desempenharam um papel importante nessas economias.

Onde a IA baseada na borda está ganhando força

A demanda inicial por inferência de borda é mais forte em setores onde mesmo pequenos atrasos podem afetar a receita, a segurança ou o envolvimento do usuário. O varejo e o comércio eletrônico estão entre os primeiros a adotá-los porque os compradores muitas vezes abandonam experiências lentas. Recomendações personalizadas, pesquisa e ferramentas de compras multimodais têm melhor desempenho quando a inferência é local e rápida.

As finanças são outra área onde a latência afeta diretamente o valor. Jenkins diz que cargas de trabalho como verificações de fraude, aprovação de pagamentos e pontuação de transações dependem de cadeias de decisões de IA que devem acontecer em milissegundos. A realização de inferências mais perto do local onde os dados são criados ajuda as empresas financeiras a avançar mais rapidamente e a manter os dados dentro das fronteiras regulamentares.

Por que as parcerias em nuvem e GPU são mais importantes agora

À medida que as cargas de trabalho de IA crescem, as empresas precisam de infraestrutura que possa acompanhar o ritmo. Jenkins diz que isso levou os provedores de nuvem e os fabricantes de GPU a uma colaboração mais estreita. O trabalho da Akamai com a NVIDIA é um exemplo, com GPUs, DPUs e software de IA implantados em milhares de pontos de presença.

A ideia é construir uma “rede de entrega de IA” que espalhe a inferência por muitos locais, em vez de concentrar tudo em algumas regiões. Isso ajuda no desempenho, mas também oferece suporte à conformidade. Jenkins observa que quase metade das grandes organizações da APAC lutam com regras de dados diferentes entre os mercados, o que torna o processamento local mais importante. As parcerias emergentes estão agora a moldar a próxima fase da infraestrutura de IA na região, especialmente para cargas de trabalho que dependem de respostas de baixa latência.

A segurança está integrada nesses sistemas desde o início, diz Jenkins. Controles de confiança zero, roteamento com reconhecimento de dados e proteções contra fraudes e bots estão se tornando partes padrão das pilhas de tecnologia oferecidas.

A infraestrutura necessária para dar suporte à IA e à automação de agentes

A execução de sistemas agentes – que tomam muitas decisões em sequência – precisa de infraestrutura que possa operar em velocidades de milissegundos. Jenkins acredita que a diversidade da região torna isto mais difícil, mas não impossível. Os países diferem amplamente em termos de conectividade, regras e preparação técnica, pelo que as cargas de trabalho de IA devem ser suficientemente flexíveis para serem executadas onde fizerem mais sentido. Ele aponta para pesquisas que mostram que a maioria das empresas da região já utiliza a nuvem pública na produção, mas muitas esperam contar com serviços de ponta até 2027. Essa mudança exigirá infraestruturas que possam armazenar dados no país, encaminhar tarefas para o local adequado mais próximo e continuar a funcionar quando as redes estiverem instáveis.

O que as empresas precisam se preparar para o próximo

À medida que a inferência avança para o limite, as empresas necessitarão de novas formas de gerir as operações. Jenkins diz que as organizações devem esperar um ciclo de vida de IA mais distribuído, onde os modelos são atualizados em vários sites. Isso requer melhor orquestração e forte visibilidade do desempenho, custo e erros em sistemas centrais e de borda.

A governança de dados torna-se mais complexa, mas também mais gerenciável quando o processamento permanece local. Metade das grandes empresas da região já se debate com a variação nas regulamentações, pelo que colocar a inferência mais perto do local onde os dados são gerados pode ajudar.

A segurança também precisa de mais atenção. Embora espalhar a inferência até a borda possa melhorar a resiliência, isso também significa que todos os locais devem ser protegidos. As empresas precisam proteger APIs, pipelines de dados e se proteger contra fraudes ou ataques de bots. Jenkins observa que muitas instituições financeiras já dependem dos controles da Akamai nessas áreas.

(Foto de Igor Omilaev)

Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e é realizado junto com outros eventos de tecnologia líderes. Clique aqui para mais informações.

AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.

Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *