Tencent dévoile Hunyuan-A13B : un modèle MoE open-source à 13 milliards de paramètres actifs avec raisonnement dual et contexte de 256K

Tencent Open Sources Hunyuan-A13B: A 13B Active Parameter MoE Model with Dual-Mode Reasoning and 256K Context

Tencent dévoile Hunyuan-A13B : un modèle MoE open-source à 13 milliards de paramètres actifs avec raisonnement dual et contexte de 256K

L'équipe Hunyuan de Tencent a lancé Hunyuan-A13B, un nouveau modèle de langage open-source basé sur une architecture éparse de type Mixture-of-Experts (MoE). Bien que le modèle compte 80 milliards de paramètres au total, seuls 13 milliards sont actifs lors de l'inférence, offrant ainsi un équilibre optimal entre performance et coût computationnel. Il prend en charge l'attention par requêtes groupées (GQA), une longueur de contexte de 256K, et un cadre de raisonnement dual alternant entre pensée rapide et lente. Conçu pour un déploiement efficace et un raisonnement robuste, Hunyuan-A13B affiche des performances de premier plan sur divers benchmarks, surpassant souvent des modèles plus grands dans les scénarios d'appel d'outils et de contexte étendu.

**Architecture : MoE éparse avec 13 milliards de paramètres actifs** Hunyuan-A13B repose sur une conception MoE fine comprenant 1 expert partagé et 64 experts non partagés, avec 8 experts activés par passage avant. Cette architecture, validée par des tests d'échelle, garantit une performance stable tout en maintenant des coûts d'inférence bas. Le modèle comprend 32 couches, utilise des activations SwiGLU, une taille de vocabulaire de 128K, et intègre la GQA pour une meilleure efficacité mémoire lors des inférences en contexte long.

**Raisonnement dual : pensée rapide et lente** Une caractéristique majeure de Hunyuan-A13B est sa capacité de raisonnement en chaîne (CoT) duale. Il propose un mode rapide à faible latence pour les requêtes simples et un mode lent plus élaboré pour les raisonnements complexes. Ces modes sont contrôlés via des balises simples : /no think pour l'inférence rapide et /think pour le raisonnement réfléchi. Cette flexibilité permet d'adapter le coût computationnel à la complexité de la tâche.

**Post-formation : apprentissage par renforcement avec modèles de récompense** Le pipeline de post-formation inclut un affinage supervisé multi-étapes et un apprentissage par renforcement (RL) pour les tâches de raisonnement et générales. Les étapes RL intègrent des récompenses basées sur les résultats et des retours spécifiques aux outils, y compris des environnements d'exécution pour le code et des vérifications pour les agents. Lors de la formation des agents, l'équipe a synthétisé divers scénarios d'utilisation d'outils, générant plus de 20 000 combinaisons pour renforcer les capacités du modèle.

**Évaluation : performances de pointe** Hunyuan-A13B excelle sur divers benchmarks : il égale ou dépasse des modèles plus grands en raisonnement logique (BBH : 89.1) et en codage (MBPP : 83.9). Pour les tâches d'agents, il mène sur BFCL-v3 (78.3) et ComplexFuncBench (61.2). Sa compréhension en contexte long est également remarquable, avec un score de 87.7 sur PenguinScrolls.

**Optimisation et déploiement** Intégré aux frameworks d'inférence populaires comme vLLM et TensorRT-LLM, Hunyuan-A13B prend en charge plusieurs formats de précision et atteint un débit de 1981.99 tokens/seconde, le rendant pratique pour les applications en temps réel. Disponible sur Hugging Face et GitHub sous licence open-source, ce modèle combine scalabilité MoE, raisonnement agentique et accessibilité, offrant une alternative convaincante aux LLM plus lourds.

Tencent công bố Hunyuan-A13B: Mô hình MoE mã nguồn mở 13 tỷ tham số với khả năng lập luận kép và bối cảnh 256K

Nhóm Hunyuan của Tencent vừa giới thiệu Hunyuan-A13B, một mô hình ngôn ngữ lớn mã nguồn mở xây dựng trên kiến trúc Mixture-of-Experts (MoE) thưa thớt. Dù tổng cộng có 80 tỷ tham số, chỉ 13 tỷ tham số hoạt động trong quá trình suy luận, mang lại sự cân bằng hiệu quả giữa hiệu suất và chi phí tính toán. Mô hình hỗ trợ Grouped Query Attention (GQA), độ dài bối cảnh 256K cùng khung lập luận kép chuyển đổi giữa tư duy nhanh và chậm. Được thiết kế để triển khai hiệu quả và lập luận mạnh mẽ, Hunyuan-A13B đạt hiệu suất hàng đầu trên các bộ kiểm tra như BFCL-v3, τ-Bench, thường vượt trội các mô hình lớn hơn trong các tác vụ sử dụng công cụ và bối cảnh dài.

**Kiến trúc: MoE thưa với 13 tỷ tham số hoạt động** Lõi của Hunyuan-A13B là thiết kế MoE tinh vi gồm 1 expert dùng chung và 64 expert riêng biệt, với 8 expert kích hoạt mỗi lượt. Kiến trúc này, được kiểm chứng qua thử nghiệm mở rộng, đảm bảo hiệu suất ổn định với chi phí suy luận thấp. Mô hình gồm 32 tầng, sử dụng kích hoạt SwiGLU, từ vựng 128K ngữ cảnh và tích hợp GQA để tối ưu bộ nhớ khi xử lý bối cảnh dài.

**Lập luận kép: Tư duy nhanh và chậm** Điểm nổi bật của Hunyuan-A13B là khả năng Chain-of-Thought (CoT) kép. Nó hỗ trợ cả chế độ tư duy nhanh độ trễ thấp cho truy vấn đơn giản và chế độ chậm chi tiết cho lập luận đa bước. Người dùng có thể chuyển đổi bằng thẻ /no think (không suy nghĩ) để suy luận nhanh hoặc /think (suy nghĩ) cho phân tích sâu. Tính linh hoạt này giúp tối ưu chi phí tính toán theo độ phức tạp tác vụ.

**Huấn luyện sau: Học tăng cường với mô hình phần thưởng** Quy trình huấn luyện sau bao gồm tinh chỉnh có giám sát đa giai đoạn và học tăng cường (RL) cho cả tác vụ lập luận và tổng quát. Các giai đoạn RL kết hợp phần thưởng dựa trên kết quả và phản hồi đặc thù công cụ, gồm môi trường thực thi mã và kiểm tra nghiệp vụ. Ở pha huấn luyện agent, nhóm đã tổng hợp 20.000 kịch bản sử dụng công cụ đa dạng để củng cố khả năng xử lý nghiệp vụ thực tế như bảng tính, tìm kiếm thông tin.

**Đánh giá: Hiệu suất đỉnh cao** Hunyuan-A13B thể hiện ấn tượng trên nhiều bộ kiểm tra: ngang bằng hoặc vượt các mô hình lớn hơn về lập luận logic (BBH: 89.1) và lập trình (MBPP: 83.9). Trong tác vụ agent, nó dẫn đầu BFCL-v3 (78.3) và ComplexFuncBench (61.2). Khả năng hiểu bối cảnh dài cũng xuất sắc với 87.7 điểm trên PenguinScrolls.

**Tối ưu và triển khai** Tích hợp đầy đủ với các framework suy luận phổ biến như vLLM và TensorRT-LLM, Hunyuan-A13B hỗ trợ nhiều định dạng độ chính xác và đạt tốc độ 1981.99 token/giây, phù hợp ứng dụng thời gian thực. Được phát hành trên Hugging Face và GitHub với giấy phép mở, mô hình này kết hợp khả năng mở rộng MoE, lập luận agent và tính tiếp cận, mang đến lựa chọn thuyết phục thay thế các LLM cồng kềnh.