AREAL : Une Révolution dans l'Entraînement des Modèles de Raisonnement grâce au Reinforcement Learning Asynchrone

AREAL: Accelerating Large Reasoning Model Training with Fully Asynchronous Reinforcement Learning

AREAL : Une Révolution dans l'Entraînement des Modèles de Raisonnement grâce au Reinforcement Learning Asynchrone

Introduction : Le besoin d'un RL efficace pour les LRM Le Reinforcement Learning (RL) est de plus en plus utilisé pour améliorer les LLMs, notamment pour les tâches de raisonnement. Ces modèles, appelés Large Reasoning Models (LRMs), génèrent des étapes de 'réflexion' intermédiaires avant de fournir des réponses finales, améliorant ainsi leurs performances sur des problèmes complexes comme les mathématiques et la programmation. Cependant, l'entraînement des LRMs avec du RL à grande échelle est difficile en raison du besoin de parallélisation massive et d'une conception système efficace. Les systèmes actuels reposent souvent sur un traitement synchrone par lots, où la génération doit attendre la fin du résultat le plus long dans un lot, ce qui entraîne une sous-utilisation des GPU. Même les méthodes plus récentes rencontrent des goulots d'étranglement, car elles utilisent des rollouts obsolètes mais restent basées sur des lots.

Contexte : L'impact du RL sur les capacités de raisonnement des LLMs Le Reinforcement Learning est devenu une stratégie largement utilisée pour améliorer les capacités de raisonnement des LLMs, en particulier pour les tâches avec des signaux de récompense clairement définis, comme les mathématiques, la programmation, le raisonnement scientifique et l'utilisation d'outils. Ces modèles s'améliorent généralement en étendant leur raisonnement en chaîne pendant l'entraînement. Les efforts open-source ont montré que des modèles plus petits et distillés peuvent également bien performer sur ces tâches. Les méthodes asynchrones de RL, prouvées efficaces dans les jeux, ont récemment été explorées pour les LLMs, mais principalement dans des scénarios à contexte court ou avec un chevauchement limité. Des travaux antérieurs ont également étudié des stratégies, comme les rollouts partiels, pour améliorer l'efficacité tout en maintenant la stabilité de l'entraînement.

Présentation du système : AReaL Des chercheurs de l'IIIS, de l'Université Tsinghua, d'Ant Research et de HKUST présentent AReaL, un système de reinforcement learning entièrement asynchrone conçu pour entraîner plus efficacement les grands modèles de raisonnement. Contrairement aux systèmes synchrones traditionnels, AReaL sépare les processus de génération et d'entraînement ; les workers de rollout produisent continuellement des résultats, tandis que les workers d'entraînement mettent à jour le modèle en parallèle à mesure que de nouvelles données arrivent. Cette conception améliore l'utilisation des GPU et accélère l'entraînement. Pour gérer l'obsolescence des données, AReaL utilise une version adaptée de PPO et intègre des optimisations comme le batching dynamique et les services de récompense parallèles. Sur des tâches de mathématiques et de programmation, AReaL atteint jusqu'à 2,77 fois une accélération de l'entraînement tout en maintenant ou en améliorant les performances finales du modèle.

Architecture technique : Composants clés et optimisations AREAL est conçu pour découpler la génération et l'entraînement sur des clusters GPU séparés, améliorant ainsi l'évolutivité, l'efficacité matérielle et la flexibilité pour le reinforcement learning avec de grands modèles. Le système comprend quatre composants principaux : des workers de rollout qui supportent une génération interruptible et des mises à jour de modèle, un service de récompense qui évalue les réponses, des workers d'entraînement qui effectuent des mises à jour PPO, et un contrôleur qui coordonne le flux de données. Pour répondre à des défis comme l'obsolescence des données et les versions incohérentes des politiques, AREAL utilise un entraînement conscient de l'obsolescence et un objectif PPO découplé. De plus, des optimisations au niveau du système comme des opérations pipelinées CPU-GPU, des requêtes asynchrones non bloquantes et un packing dynamique de séquences améliorent la vitesse d'entraînement et l'efficacité des GPU.

Résultats expérimentaux : Performance et évolutivité AREAL a été testé sur des tâches de mathématiques et de programmation en utilisant des modèles Qwen2 distillés de différentes tailles. Il a atteint une accélération de l'entraînement 2 à 3 fois plus rapide que les méthodes précédentes, comme DeepScaleR et DeepCoder, tout en maintenant une précision comparable. Le système s'adapte efficacement à travers les GPUs et gère de longues longueurs de contexte (jusqu'à 32k tokens), surpassant les méthodes synchrones. Les caractéristiques clés de conception, comme la génération interruptible et le microbatching dynamique, améliorent la vitesse d'entraînement et l'utilisation du matériel. Algorithmiquement, l'objectif PPO découplé d'AREAL permet un apprentissage stable même avec des données obsolètes, contrairement au PPO standard. Globalement, AREAL équilibre efficacement vitesse et performance, le rendant bien adapté pour l'entraînement RL à grande échelle de modèles de langage.

Conclusion : Avancer le RL à grande échelle pour les modèles de langage En conclusion, AREAL est un système de reinforcement learning asynchrone conçu pour améliorer l'efficacité de l'entraînement des LLMs, en particulier pour des tâches comme la programmation et le raisonnement mathématique. Contrairement aux méthodes synchrones traditionnelles qui attendent tous les résultats avant de mettre à jour, AREAL permet à la génération et à l'entraînement de fonctionner en parallèle. Ce découplage réduit le temps d'inactivité des GPU et augmente le débit. Pour garantir que l'apprentissage reste stable, AREAL introduit des stratégies conscientes de l'obsolescence et un algorithme PPO modifié qui gère efficacement les données d'entraînement plus anciennes. Les expériences montrent qu'il offre jusqu'à 2,77 fois une accélération de l'entraînement par rapport aux systèmes synchrones, sans sacrifier la précision, marquant ainsi une avancée dans la mise à l'échelle du RL pour les grands modèles.

AREAL: Đột Phá Huấn Luyện Mô Hình Suy Luận Lớn Nhờ Học Tăng Cường Không Đồng Bộ

Giới thiệu: Nhu cầu về RL hiệu quả cho LRM Học tăng cường (Reinforcement Learning - RL) ngày càng được sử dụng để nâng cao khả năng của các mô hình ngôn ngữ lớn (LLMs), đặc biệt cho các nhiệm vụ suy luận. Các mô hình này, được gọi là Large Reasoning Models (LRMs), tạo ra các bước 'tư duy' trung gian trước khi đưa ra câu trả lời cuối cùng, từ đó cải thiện hiệu suất trên các bài toán phức tạp như toán học và lập trình. Tuy nhiên, huấn luyện LRM với RL ở quy mô lớn là thách thức do yêu cầu song song hóa khổng lồ và thiết kế hệ thống hiệu quả. Các hệ thống hiện tại thường dựa vào xử lý đồng bộ theo lô, nơi quá trình tạo phải chờ kết quả dài nhất trong lô hoàn tất, dẫn đến lãng phí tài nguyên GPU. Ngay cả các phương pháp mới hơn vẫn gặp nghẽn cổ chai do sử dụng dữ liệu cũ nhưng vẫn hoạt động theo lô.

Bối cảnh: Tác động của RL lên khả năng suy luận của LLM Học tăng cường đã trở thành chiến lược phổ biến để nâng cao khả năng suy luận của LLM, đặc biệt cho các tác vụ có tín hiệu phần thưởng rõ ràng như toán, lập trình, suy luận khoa học và sử dụng công cụ. Các mô hình này thường cải thiện bằng cách mở rộng chuỗi suy luận trong quá trình huấn luyện. Các nỗ lực mã nguồn mở đã chứng minh rằng ngay cả các mô hình nhỏ được tinh chế cũng có thể hoạt động tốt trên những tác vụ này. Phương pháp RL không đồng bộ, đã chứng minh hiệu quả trong game, gần đây được khám phá cho LLM nhưng chủ yếu trong các kịch bản ngữ cảnh ngắn hoặc chồng lấn hạn chế. Nghiên cứu trước đây cũng đã khảo sát các chiến lược như rollouts một phần để tăng hiệu suất mà vẫn đảm bảo ổn định huấn luyện.

Tổng quan hệ thống: Giới thiệu AReaL Nhóm nghiên cứu từ IIIS, Đại học Thanh Hoa, Ant Research và HKUST giới thiệu AReaL, hệ thống học tăng cường không đồng bộ hoàn toàn được thiết kế để huấn luyện các mô hình suy luận lớn hiệu quả hơn. Khác với hệ thống đồng bộ truyền thống, AReaL tách biệt quá trình tạo dữ liệu và huấn luyện; các worker rollout liên tục sản xuất đầu ra trong khi worker huấn luyện cập nhật mô hình song song khi có dữ liệu mới. Thiết kế này tối ưu hóa việc sử dụng GPU và tăng tốc huấn luyện. Để xử lý vấn đề dữ liệu lỗi thời, AReaL sử dụng phiên bản PPO tùy chỉnh cùng các tối ưu như batching động và dịch vụ tính thưởng song song. Trên các bài toán toán và mã, AReaL đạt tốc độ huấn luyện nhanh hơn tới 2.77 lần trong khi duy trì hoặc cải thiện hiệu suất mô hình cuối cùng.

Kiến trúc kỹ thuật: Thành phần chính và tối ưu hóa AREAL được thiết kế để tách rời quá trình tạo dữ liệu và huấn luyện trên các cụm GPU riêng biệt, nâng cao khả năng mở rộng, hiệu quả phần cứng và linh hoạt cho RL với mô hình lớn. Hệ thống gồm bốn thành phần chính: worker rollout hỗ trợ tạo dữ liệu có thể ngắt và cập nhật mô hình, dịch vụ thưởng đánh giá phản hồi, worker huấn luyện thực hiện cập nhật PPO, và bộ điều khiển phối hợp luồng dữ liệu. Để giải quyết các thách thức như dữ liệu lỗi thời và phiên bản chính sách không đồng nhất, AREAL áp dụng cơ chế huấn luyện nhận biết độ trễ và mục tiêu PPO tách rời. Ngoài ra, các tối ưu hệ thống như pipeline CPU-GPU, yêu cầu không đồng bộ không chặn và đóng gói chuỗi động giúp tăng tốc huấn luyện và hiệu suất GPU.

Kết quả thử nghiệm: Hiệu suất và khả năng mở rộng AREAL được kiểm tra trên các bài toán toán và lập trình sử dụng mô hình Qwen2 đã tinh chế với nhiều kích thước. Nó đạt tốc độ huấn luyện nhanh gấp 2-3 lần so với các phương pháp trước như DeepScaleR và DeepCoder, trong khi vẫn duy trì độ chính xác tương đương. Hệ thống mở rộng hiệu quả trên nhiều GPU và xử lý được ngữ cảnh dài (lên tới 32k token), vượt trội so với phương pháp đồng bộ. Các tính năng thiết kế chính như tạo dữ liệu có thể ngắt và microbatching động giúp tăng tốc huấn luyện và sử dụng tài nguyên. Về mặt thuật toán, mục tiêu PPO tách rời của AREAL cho phép học ổn định ngay cả với dữ liệu cũ, khác với PPO tiêu chuẩn. Tổng thể, AREAL cân bằng tốt giữa tốc độ và hiệu suất, phù hợp cho huấn luyện RL quy mô lớn trên mô hình ngôn ngữ.

Kết luận: Thúc đẩy RL quy mô lớn cho mô hình ngôn ngữ Tóm lại, AREAL là hệ thống học tăng cường không đồng bộ được thiết kế để nâng cao hiệu quả huấn luyện LLM, đặc biệt cho các tác vụ như lập trình và suy luận toán học. Khác với phương pháp đồng bộ truyền thống phải chờ tất cả đầu ra trước khi cập nhật, AREAL cho phép song song hóa quá trình tạo dữ liệu và huấn luyện. Sự tách biệt này giảm thời gian chết của GPU và tăng thông lượng. Để đảm bảo tính ổn định, AREAL giới thiệu chiến lược nhận biết độ trễ và thuật toán PPO cải tiến xử lý hiệu quả dữ liệu huấn luyện cũ. Thử nghiệm cho thấy nó đạt tốc độ nhanh hơn tới 2.77 lần so với hệ thống đồng bộ mà không giảm độ chính xác, đánh dấu bước tiến trong việc mở rộng RL cho mô hình lớn.