Tencent dévoile Hunyuan-A13B : un modèle MoE open-source à 13 milliards de paramètres actifs avec raisonnement dual et contexte de 256K
L'équipe Hunyuan de Tencent a lancé Hunyuan-A13B, un nouveau modèle de langage open-source basé sur une architecture éparse de type Mixture-of-Experts (MoE). Bien que le modèle compte 80 milliards de paramètres au total, seuls 13 milliards sont actifs lors de l'inférence, offrant ainsi un équilibre optimal entre performance et coût computationnel. Il prend en charge l'attention par requêtes groupées (GQA), une longueur de contexte de 256K, et un cadre de raisonnement dual alternant entre pensée rapide et lente. Conçu pour un déploiement efficace et un raisonnement robuste, Hunyuan-A13B affiche des performances de premier plan sur divers benchmarks, surpassant souvent des modèles plus grands dans les scénarios d'appel d'outils et de contexte étendu.
**Architecture : MoE éparse avec 13 milliards de paramètres actifs** Hunyuan-A13B repose sur une conception MoE fine comprenant 1 expert partagé et 64 experts non partagés, avec 8 experts activés par passage avant. Cette architecture, validée par des tests d'échelle, garantit une performance stable tout en maintenant des coûts d'inférence bas. Le modèle comprend 32 couches, utilise des activations SwiGLU, une taille de vocabulaire de 128K, et intègre la GQA pour une meilleure efficacité mémoire lors des inférences en contexte long.
**Raisonnement dual : pensée rapide et lente** Une caractéristique majeure de Hunyuan-A13B est sa capacité de raisonnement en chaîne (CoT) duale. Il propose un mode rapide à faible latence pour les requêtes simples et un mode lent plus élaboré pour les raisonnements complexes. Ces modes sont contrôlés via des balises simples : /no think pour l'inférence rapide et /think pour le raisonnement réfléchi. Cette flexibilité permet d'adapter le coût computationnel à la complexité de la tâche.
**Post-formation : apprentissage par renforcement avec modèles de récompense** Le pipeline de post-formation inclut un affinage supervisé multi-étapes et un apprentissage par renforcement (RL) pour les tâches de raisonnement et générales. Les étapes RL intègrent des récompenses basées sur les résultats et des retours spécifiques aux outils, y compris des environnements d'exécution pour le code et des vérifications pour les agents. Lors de la formation des agents, l'équipe a synthétisé divers scénarios d'utilisation d'outils, générant plus de 20 000 combinaisons pour renforcer les capacités du modèle.
**Évaluation : performances de pointe** Hunyuan-A13B excelle sur divers benchmarks : il égale ou dépasse des modèles plus grands en raisonnement logique (BBH : 89.1) et en codage (MBPP : 83.9). Pour les tâches d'agents, il mène sur BFCL-v3 (78.3) et ComplexFuncBench (61.2). Sa compréhension en contexte long est également remarquable, avec un score de 87.7 sur PenguinScrolls.
**Optimisation et déploiement** Intégré aux frameworks d'inférence populaires comme vLLM et TensorRT-LLM, Hunyuan-A13B prend en charge plusieurs formats de précision et atteint un débit de 1981.99 tokens/seconde, le rendant pratique pour les applications en temps réel. Disponible sur Hugging Face et GitHub sous licence open-source, ce modèle combine scalabilité MoE, raisonnement agentique et accessibilité, offrant une alternative convaincante aux LLM plus lourds.