A capacidade de executar aprendizagem adversária para segurança de IA em tempo real oferece uma vantagem decisiva sobre os mecanismos de defesa estáticos.

O surgimento de ataques orientados por IA – utilizando capacidades de aprendizagem por reforço (RL) e Large Language Model (LLM) – criou uma classe de “vibe hacking” e ameaças adaptativas que mudam mais rápido do que as equipes humanas conseguem responder. Isto representa um risco operacional e de governação para os líderes empresariais que a política por si só não consegue mitigar.

Os invasores agora empregam raciocínio em várias etapas e geração automatizada de código para contornar as defesas estabelecidas. Consequentemente, a indústria está a observar uma migração necessária para a “defesa autónoma” (isto é, sistemas capazes de aprender, antecipar e responder de forma inteligente sem intervenção humana).

No entanto, a transição para estes modelos de defesa sofisticados atingiu historicamente um limite operacional rígido: a latência.

A aplicação da aprendizagem contraditória, em que os modelos de ameaças e defesa são treinados continuamente entre si, oferece um método para combater ameaças maliciosas à segurança da IA. No entanto, a implantação das arquiteturas necessárias baseadas em transformadores em um ambiente de produção ativo cria um gargalo.

Abe Starosta, gerente principal de pesquisa aplicada da Microsoft NEXT.ai, disse: “O aprendizado adversário só funciona na produção quando a latência, o rendimento e a precisão caminham juntos.

Os custos computacionais associados à execução desses modelos densos anteriormente forçavam os líderes a escolher entre detecção de alta precisão (que é lenta) e heurísticas de alto rendimento (que são menos precisas).

A colaboração de engenharia entre a Microsoft e a NVIDIA mostra como a aceleração de hardware e a otimização em nível de kernel removem essa barreira, tornando viável a defesa contra adversários em tempo real em escala empresarial.

A operacionalização de modelos de transformadores para tráfego ativo exigiu que as equipes de engenharia abordassem as limitações inerentes da inferência baseada em CPU. As unidades de processamento padrão lutam para lidar com o volume e a velocidade das cargas de trabalho de produção quando sobrecarregadas com redes neurais complexas.

Em testes de linha de base conduzidos pelas equipes de pesquisa, uma configuração baseada em CPU produziu uma latência ponta a ponta de 1.239,67 ms com uma taxa de transferência de apenas 0,81 req/s. Para uma instituição financeira ou plataforma global de comércio eletrónico, um atraso de um segundo em cada pedido é operacionalmente insustentável.

Ao fazer a transição para uma arquitetura acelerada por GPU (utilizando especificamente unidades NVIDIA H100), a latência básica caiu para 17,8 ms. No entanto, as atualizações de hardware por si só se mostraram insuficientes para atender aos rígidos requisitos de segurança de IA em tempo real.

Através da otimização adicional do mecanismo de inferência e dos processos de tokenização, as equipes alcançaram uma latência final de ponta a ponta de 7,67 ms – uma aceleração de desempenho de 160x em comparação com a linha de base da CPU. Tal redução coloca o sistema dentro dos limites aceitáveis ​​para análise de tráfego em linha, permitindo a implantação de modelos de detecção com precisão superior a 95% em benchmarks de aprendizagem adversária.

Um obstáculo operacional identificado durante este projeto oferece informações valiosas para os CTOs que supervisionam a integração da IA. Embora o modelo do classificador em si seja computacionalmente pesado, o pipeline de pré-processamento de dados – especificamente a tokenização – surgiu como um gargalo secundário.

As técnicas padrão de tokenização, muitas vezes baseadas na segmentação de espaços em branco, são projetadas para processamento de linguagem natural (por exemplo, artigos e documentação). Eles se mostram inadequados para dados de segurança cibernética, que consistem em sequências de solicitações densamente compactadas e cargas geradas por máquina que não possuem interrupções naturais.

Para resolver isso, as equipes de engenharia desenvolveram um tokenizador específico de domínio. Ao integrar pontos de segmentação específicos de segurança adaptados às nuances estruturais dos dados da máquina, eles permitiram um paralelismo mais refinado. Essa abordagem personalizada de segurança proporcionou uma redução de 3,5x na latência de tokenização, destacando que os componentes de IA prontos para uso geralmente exigem reengenharia específica de domínio para funcionar de maneira eficaz em ambientes de nicho.

Alcançar esses resultados exigiu uma pilha de inferência coesa, em vez de atualizações isoladas. A arquitetura utilizou NVIDIA Dynamo e Triton Inference Server para servir, juntamente com uma implementação TensorRT do classificador de ameaças da Microsoft.

O processo de otimização envolveu a fusão de operações importantes – como funções de normalização, incorporação e ativação – em kernels CUDA personalizados únicos. Essa fusão minimiza o tráfego de memória e a sobrecarga de inicialização, que são freqüentes assassinos silenciosos de desempenho em negociações de alta frequência ou aplicações de segurança. O TensorRT fundiu automaticamente operações de normalização em kernels anteriores, enquanto os desenvolvedores construíam kernels personalizados para atenção às janelas deslizantes.

O resultado dessas otimizações de inferência específicas foi uma redução na latência de avanço de 9,45 ms para 3,39 ms, uma aceleração de 2,8x que contribuiu com a maior parte da redução de latência observada nas métricas finais.

Rachel Allen, gerente de segurança cibernética da NVIDIA, explicou: “Proteger as empresas significa combinar o volume e a velocidade dos dados de segurança cibernética e adaptar-se à velocidade de inovação dos adversários.

“Os modelos defensivos precisam de latência ultrabaixa para funcionar em taxa de linha e de adaptabilidade para se proteger contra as ameaças mais recentes. A combinação do aprendizado adversário com os modelos de detecção acelerada baseados em transformadores NVIDIA TensorRT faz exatamente isso.”

O sucesso aqui aponta para uma necessidade mais ampla de infraestrutura empresarial. À medida que os agentes de ameaças aproveitam a IA para transformar ataques em tempo real, os mecanismos de segurança devem possuir espaço computacional para executar modelos de inferência complexos sem introduzir latência.

A dependência da computação da CPU para detecção avançada de ameaças está se tornando um risco. Assim como a renderização gráfica migrou para GPUs, a inferência de segurança em tempo real requer hardware especializado para manter a taxa de transferência >130 req/s, garantindo ao mesmo tempo uma cobertura robusta.

Além disso, os modelos genéricos de IA e os tokenizadores falham frequentemente em dados especializados. O “vibe hacking” e as cargas complexas das ameaças modernas exigem modelos treinados especificamente em padrões maliciosos e segmentações de entrada que reflitam a realidade dos dados da máquina.

Olhando para o futuro, o roteiro para a segurança futura envolve modelos e arquiteturas de treinamento especificamente para a robustez do adversário, potencialmente usando técnicas como a quantização para aumentar ainda mais a velocidade.

Ao treinar continuamente modelos de ameaças e defesa em conjunto, as organizações podem construir uma base para proteção de IA em tempo real que se adapta à complexidade das ameaças à segurança em evolução. O avanço do aprendizado adversário demonstra que a tecnologia para conseguir isso – equilibrar latência, rendimento e precisão – agora pode ser implantada hoje.

Veja também: ZAYA1: modelo de IA usando GPUs AMD para treinamento atinge marco

Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes, incluindo a Cyber ​​Security Expo. Clique aqui para mais informações.

AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.

Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *