AREAL : Une Révolution dans l'Entraînement des Modèles de Raisonnement grâce au Reinforcement Learning Asynchrone
Introduction : Le besoin d'un RL efficace pour les LRM Le Reinforcement Learning (RL) est de plus en plus utilisé pour améliorer les LLMs, notamment pour les tâches de raisonnement. Ces modèles, appelés Large Reasoning Models (LRMs), génèrent des étapes de 'réflexion' intermédiaires avant de fournir des réponses finales, améliorant ainsi leurs performances sur des problèmes complexes comme les mathématiques et la programmation. Cependant, l'entraînement des LRMs avec du RL à grande échelle est difficile en raison du besoin de parallélisation massive et d'une conception système efficace. Les systèmes actuels reposent souvent sur un traitement synchrone par lots, où la génération doit attendre la fin du résultat le plus long dans un lot, ce qui entraîne une sous-utilisation des GPU. Même les méthodes plus récentes rencontrent des goulots d'étranglement, car elles utilisent des rollouts obsolètes mais restent basées sur des lots.
Contexte : L'impact du RL sur les capacités de raisonnement des LLMs Le Reinforcement Learning est devenu une stratégie largement utilisée pour améliorer les capacités de raisonnement des LLMs, en particulier pour les tâches avec des signaux de récompense clairement définis, comme les mathématiques, la programmation, le raisonnement scientifique et l'utilisation d'outils. Ces modèles s'améliorent généralement en étendant leur raisonnement en chaîne pendant l'entraînement. Les efforts open-source ont montré que des modèles plus petits et distillés peuvent également bien performer sur ces tâches. Les méthodes asynchrones de RL, prouvées efficaces dans les jeux, ont récemment été explorées pour les LLMs, mais principalement dans des scénarios à contexte court ou avec un chevauchement limité. Des travaux antérieurs ont également étudié des stratégies, comme les rollouts partiels, pour améliorer l'efficacité tout en maintenant la stabilité de l'entraînement.
Présentation du système : AReaL Des chercheurs de l'IIIS, de l'Université Tsinghua, d'Ant Research et de HKUST présentent AReaL, un système de reinforcement learning entièrement asynchrone conçu pour entraîner plus efficacement les grands modèles de raisonnement. Contrairement aux systèmes synchrones traditionnels, AReaL sépare les processus de génération et d'entraînement ; les workers de rollout produisent continuellement des résultats, tandis que les workers d'entraînement mettent à jour le modèle en parallèle à mesure que de nouvelles données arrivent. Cette conception améliore l'utilisation des GPU et accélère l'entraînement. Pour gérer l'obsolescence des données, AReaL utilise une version adaptée de PPO et intègre des optimisations comme le batching dynamique et les services de récompense parallèles. Sur des tâches de mathématiques et de programmation, AReaL atteint jusqu'à 2,77 fois une accélération de l'entraînement tout en maintenant ou en améliorant les performances finales du modèle.
Architecture technique : Composants clés et optimisations AREAL est conçu pour découpler la génération et l'entraînement sur des clusters GPU séparés, améliorant ainsi l'évolutivité, l'efficacité matérielle et la flexibilité pour le reinforcement learning avec de grands modèles. Le système comprend quatre composants principaux : des workers de rollout qui supportent une génération interruptible et des mises à jour de modèle, un service de récompense qui évalue les réponses, des workers d'entraînement qui effectuent des mises à jour PPO, et un contrôleur qui coordonne le flux de données. Pour répondre à des défis comme l'obsolescence des données et les versions incohérentes des politiques, AREAL utilise un entraînement conscient de l'obsolescence et un objectif PPO découplé. De plus, des optimisations au niveau du système comme des opérations pipelinées CPU-GPU, des requêtes asynchrones non bloquantes et un packing dynamique de séquences améliorent la vitesse d'entraînement et l'efficacité des GPU.
Résultats expérimentaux : Performance et évolutivité AREAL a été testé sur des tâches de mathématiques et de programmation en utilisant des modèles Qwen2 distillés de différentes tailles. Il a atteint une accélération de l'entraînement 2 à 3 fois plus rapide que les méthodes précédentes, comme DeepScaleR et DeepCoder, tout en maintenant une précision comparable. Le système s'adapte efficacement à travers les GPUs et gère de longues longueurs de contexte (jusqu'à 32k tokens), surpassant les méthodes synchrones. Les caractéristiques clés de conception, comme la génération interruptible et le microbatching dynamique, améliorent la vitesse d'entraînement et l'utilisation du matériel. Algorithmiquement, l'objectif PPO découplé d'AREAL permet un apprentissage stable même avec des données obsolètes, contrairement au PPO standard. Globalement, AREAL équilibre efficacement vitesse et performance, le rendant bien adapté pour l'entraînement RL à grande échelle de modèles de langage.
Conclusion : Avancer le RL à grande échelle pour les modèles de langage En conclusion, AREAL est un système de reinforcement learning asynchrone conçu pour améliorer l'efficacité de l'entraînement des LLMs, en particulier pour des tâches comme la programmation et le raisonnement mathématique. Contrairement aux méthodes synchrones traditionnelles qui attendent tous les résultats avant de mettre à jour, AREAL permet à la génération et à l'entraînement de fonctionner en parallèle. Ce découplage réduit le temps d'inactivité des GPU et augmente le débit. Pour garantir que l'apprentissage reste stable, AREAL introduit des stratégies conscientes de l'obsolescence et un algorithme PPO modifié qui gère efficacement les données d'entraînement plus anciennes. Les expériences montrent qu'il offre jusqu'à 2,77 fois une accélération de l'entraînement par rapport aux systèmes synchrones, sans sacrifier la précision, marquant ainsi une avancée dans la mise à l'échelle du RL pour les grands modèles.