A Tencent expandiu sua família de modelos de IA hunyuan de código aberto que são versáteis o suficiente para uso amplo. Essa nova família de modelos é projetada para oferecer um desempenho poderoso em ambientes computacionais, desde pequenos dispositivos de borda a sistemas de produção exigentes e de alta concorrência.
O lançamento inclui um conjunto abrangente de modelos pré-treinados e ajustados de instruções disponíveis na plataforma do desenvolvedor, abraçando o rosto. Os modelos vêm em vários tamanhos, especificamente com escalas de parâmetros de 0,5b, 1,8b, 4b e 7b, fornecendo flexibilidade substancial para desenvolvedores e empresas.
A Tencent indicou que esses modelos foram desenvolvidos usando estratégias de treinamento semelhantes ao seu modelo Hunyuan-A13B mais poderoso, permitindo que eles herdem suas características de desempenho. Essa abordagem permite que os usuários selecionem o modelo ideal para suas necessidades, seja uma variante menor para a computação de borda com restrição de recursos ou um modelo maior para cargas de trabalho de produção de alto rendimento, garantindo recursos fortes.
Uma das características mais notáveis da série Hunyuan é seu suporte nativo para uma janela de contexto de 256k de 256 mil. Isso permite que os modelos lidem e mantenham o desempenho estável em tarefas de texto longo, uma capacidade vital para análise complexa de documentos, conversas estendidas e geração de conteúdo aprofundada. Os modelos suportam o que a Tencent chama de “raciocínio híbrido”, que permite modos de pensamento rápido e lento que os usuários podem escolher entre, dependendo de seus requisitos específicos.
A empresa também colocou uma forte ênfase nas capacidades agênticas. Os modelos foram otimizados para tarefas baseadas em agentes e demonstraram resultados líderes em benchmarks estabelecidos, como BFCL-V3, banco τ e bancada C3, sugerindo um alto grau de proficiência na solução de problemas complexa e em várias etapas. Por exemplo, na bancada C3, o modelo Hunyuan-7B-Instruct alcança uma pontuação de 68,5, enquanto o modelo Hunyuan-4b-Instruct Model obtém 64.3.
O desempenho da série é um foco em inferência eficiente. Os modelos Hunyuan de Tencent utilizam atenção em consulta agrupada (GQA), uma técnica conhecida por melhorar a velocidade de processamento e reduzir a sobrecarga computacional. Essa eficiência é aprimorada ainda mais pelo suporte avançado de quantização, um elemento -chave da arquitetura Hunyuan projetada para diminuir as barreiras de implantação.
A Tencent desenvolveu seu próprio conjunto de ferramentas de compressão, Angleslim, para criar uma solução de compressão de modelo mais fácil de usar e eficaz. Usando essa ferramenta, a empresa oferece dois tipos principais de quantização para a série Hunyuan.
O primeiro é a quantização estática do FP8, que emprega um formato de ponto flutuante de 8 bits. Este método usa uma pequena quantidade de dados de calibração para pré-determinar a escala de quantização sem exigir reciclagem completa, converter pesos do modelo e valores de ativação no formato FP8 para aumentar a eficiência da inferência.
O segundo método é a quantização INT4, que atinge a quantização W4A16 através dos algoritmos GPTQ e AWQ:
- O GPTQ Processos de abordagem Modelo pesos Camada por camada, usando dados de calibração para minimizar erros nos pesos quantizados. Esse processo evita a exigência de reciclagem do modelo e melhora a velocidade de inferência.
- O Awq O algoritmo funciona analisando estatisticamente a amplitude dos valores de ativação de um pequeno conjunto de dados de calibração. Em seguida, calcula um coeficiente de escala para cada canal de peso, que expande a faixa numérica de pesos importantes para reter mais informações durante o processo de compressão.
Os desenvolvedores podem usar a ferramenta de ângulim ou baixar os modelos pré-Quantizados diretamente.
Os benchmarks de desempenho confirmam as fortes capacidades dos modelos Tencent Hunyuan em uma variedade de tarefas. O modelo hunyuan-7b pré-treinado, por exemplo, atinge uma pontuação de 79,82 na referência MMLU, 88,25 no GSM8K e 74,85 na referência matemática, demonstrando sólidos raciocínio e habilidades matemáticas.
As variantes ajustadas por instruções mostram resultados impressionantes em áreas especializadas. Em matemática, o modelo Hunyuan-7B-Instruct pontua 81.1 na referência Aime 2024, enquanto a versão 4B pontua 78.3. Na ciência, o modelo 7B atinge 76,5 no Olympiadbench e, na codificação, obtém 42 no LivecodeBench.
Os benchmarks de quantização mostram degradação mínima de desempenho. Na referência de queda, o modelo Hunyuan-7B-Instruct recebe 85,9 em seu formato B16, 86,0 com FP8 e 85,7 com INT4 GPTQ, indicando que os ganhos de eficiência não têm um custo para a precisão.
Para implantação, a Tencent recomenda o uso de estruturas estabelecidas como Tensorrt-llm, VLLM ou SGLANG para servir os modelos Hunyuan e criar pontos de extremidade da API compatível com o OpenAI, garantindo que eles possam ser integrados sem problemas aos fluxos de trabalho de desenvolvimento existentes. Essa combinação de desempenho, eficiência e flexibilidade de implantação posiciona a série Hunyuan como um candidato poderoso contínuo na IA de código aberto.
Veja também: Deep Cogito V2: AI de fonte aberta que aprimora suas habilidades de raciocínio
Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente é co-localizado com outros eventos líderes, incluindo a Conferência de Automação Inteligente, Blockx, Digital Transformation Week e Cyber Security & Cloud Expo.
Explore outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.
Fontesartificialintelligence