Os líderes empresariais que enfrentam os elevados custos de implementação de modelos de IA poderão encontrar uma trégua graças a um novo design de arquitetura.
Embora as capacidades da IA generativa sejam atraentes, as suas imensas exigências computacionais, tanto para formação como para inferência, resultam em despesas proibitivas e em crescentes preocupações ambientais. No centro desta ineficiência está o “gargalo fundamental” dos modelos de um processo autorregressivo que gera texto sequencialmente, token por token.
Para empresas que processam vastos fluxos de dados, desde redes IoT até mercados financeiros, esta limitação torna a geração de análises de formato longo lenta e economicamente desafiadora. No entanto, um novo artigo de pesquisa da Tencent AI e da Universidade Tsinghua propõe uma alternativa.
Uma nova abordagem para a eficiência da IA
A pesquisa apresenta Modelos de Linguagem Autoregressivos Contínuos (CALM). Este método reprojeta o processo de geração para prever um vetor contínuo em vez de um token discreto.
Um autoencoder de alta fidelidade “comprime um pedaço de K tokens em um único vetor contínuo”, que mantém uma largura de banda semântica muito maior.
Em vez de processar algo como “o”, “gato”, “sat” em três etapas, o modelo os compacta em um. Este projeto “reduz diretamente o número de etapas generativas”, atacando a carga computacional.
Os resultados experimentais demonstram uma melhor compensação entre desempenho e computação. Um modelo CALM AI agrupando quatro tokens proporcionou desempenho “comparável a linhas de base discretas e fortes, mas a um custo computacional significativamente menor” para uma empresa.
Um modelo CALM, por exemplo, exigiu 44% menos FLOPs de treinamento e 34% menos FLOPs de inferência do que um Transformer básico de capacidade semelhante. Isto aponta para uma poupança tanto nas despesas de capital iniciais de formação como nas despesas operacionais recorrentes de inferência.
Reconstruindo o kit de ferramentas para o domínio contínuo
Passar de um vocabulário finito e discreto para um espaço vetorial infinito e contínuo quebra o kit de ferramentas padrão do LLM. Os pesquisadores tiveram que desenvolver uma “estrutura abrangente e livre de probabilidades” para tornar o novo modelo viável.
Para treinamento, o modelo não pode usar uma camada softmax padrão ou estimativa de máxima verossimilhança. Para resolver isso, a equipe usou um objetivo “livre de probabilidade” com um Transformador de Energia, que recompensa o modelo por previsões precisas sem calcular probabilidades explícitas.
Este novo método de treinamento também exigiu uma nova métrica de avaliação. Benchmarks padrão como Perplexity são inaplicáveis, pois dependem das mesmas probabilidades que o modelo não calcula mais.
A equipe propôs o BrierLM, uma nova métrica baseada na pontuação de Brier que pode ser estimada puramente a partir de amostras de modelos. A validação confirmou o BrierLM como uma alternativa confiável, mostrando uma “correlação de classificação de Spearman de -0,991” com métricas de perda tradicionais.
Finalmente, a estrutura restaura a geração controlada, um recurso fundamental para uso empresarial. A amostragem de temperatura padrão é impossível sem uma distribuição de probabilidade. O artigo apresenta um novo “algoritmo de amostragem livre de verossimilhança”, incluindo um método prático de aproximação de lote, para gerenciar o equilíbrio entre precisão e diversidade de saída.
Reduzindo os custos de IA empresarial
Esta pesquisa oferece um vislumbre de um futuro onde a IA generativa não será definida puramente por contagens de parâmetros cada vez maiores, mas pela eficiência arquitetônica.
O caminho atual dos modelos de escalonamento está a atingir um muro de retornos decrescentes e custos crescentes. A estrutura CALM estabelece um “novo eixo de design para escalonamento LLM: aumentando a largura de banda semântica de cada etapa generativa”.
Embora esta seja uma estrutura de pesquisa e não um produto pronto para uso, ela aponta para um caminho poderoso e escalonável em direção a modelos de linguagem ultraeficientes. Ao avaliar os roteiros dos fornecedores, os líderes tecnológicos devem olhar além do tamanho do modelo e começar a perguntar sobre a eficiência arquitetônica.
A capacidade de reduzir FLOPs por token gerado se tornará uma vantagem competitiva definidora, permitindo que a IA seja implantada de forma mais econômica e sustentável em toda a empresa para reduzir custos – desde o data center até aplicativos de borda com uso intenso de dados.
Veja também: Benchmarks de IA falhos colocam os orçamentos empresariais em risco
Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes, incluindo a Cyber Security Expo. Clique aqui para obter mais informações.
AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.
Fontesartificialintelligence



