DeepTheorem : Une Révolution dans le Raisonnement Mathématique des LLM grâce au Langage Naturel et au Reinforcement Learning

Paper page - DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning

DeepTheorem : Une Révolution dans le Raisonnement Mathématique des LLM grâce au Langage Naturel et au Reinforcement Learning

DeepTheorem marque une avancée majeure dans la démonstration de théorèmes par les modèles de langage (LLM) en combinant un jeu de données en langage naturel à grande échelle et une stratégie innovante de reinforcement learning. Ce cadre complet atteint des performances inégalées dans le domaine des preuves informelles de théorèmes.

La démonstration de théorèmes constitue un banc d'essai crucial pour évaluer les capacités de raisonnement complexe des LLM. Cependant, les approches traditionnelles (ATP) s'appuient sur des systèmes formels peu compatibles avec les forces des LLM, formés principalement sur des connaissances en langage naturel. DeepTheorem propose une solution à ce décalage.

Le système comprend un jeu de données exceptionnel de 121 000 théorèmes et preuves informels de niveau Olympiade Internationale de Mathématiques (IMO), couvrant divers domaines mathématiques. Chaque élément est annoté rigoureusement pour sa justesse, difficulté et catégorie, accompagné de variantes vérifiables systématiquement construites.

La pièce maîtresse de DeepTheorem est RL-Zero, une stratégie de reinforcement learning spécialement conçue pour les preuves informelles. Elle exploite les variantes de théorèmes pour renforcer l'inférence mathématique. Le cadre propose également des métriques d'évaluation complètes examinant tant la correction des preuves que la qualité des étapes de raisonnement.

Les résultats expérimentaux démontrent une amélioration significative des performances par rapport aux méthodes existantes. Le modèle 7B de DeepTheorem surpasse même des géants comme Gemini et Claude 3.5, sans nécessiter d'annotations de preuves - seule la valeur de vérité du théorème suffit.

Cette innovation ouvre de nouvelles perspectives pour l'exploration mathématique automatisée. Comme le souligne l'équipe : "L'apprentissage par exploration booste considérablement l'utilisation des connaissances acquises en pré-entraînement par les LLM". DeepTheorem prouve ainsi qu'une combinaison judicieuse de données qualité et de reinforcement learning peut révéler le plein potentiel des LLM en raisonnement mathématique.

DeepTheorem: Đột Phá Trong Khả Năng Chứng Minh Định Lý Của LLM Thông Qua Ngôn Ngữ Tự Nhiên Và Học Tăng Cường

DeepTheorem đánh dấu bước tiến quan trọng trong lĩnh vực chứng minh định lý bằng mô hình ngôn ngữ lớn (LLM) thông qua bộ dữ liệu ngôn ngữ tự nhiên quy mô lớn và chiến lược học tăng cường đặc biệt, đạt kết quả vượt trội trong chứng minh định lý phi hình thức.

Chứng minh định lý từ lâu đã là thước đo quan trọng đánh giá khả năng lập luận phức tạp của LLM. Tuy nhiên, các phương pháp truyền thống (ATP) phụ thuộc quá nhiều vào hệ thống chứng minh hình thức, không tận dụng được thế mạnh của LLM về kiến thức ngôn ngữ tự nhiên. DeepTheorem ra đời để giải quyết hạn chế này.

Hệ thống này sở hữu bộ dữ liệu ấn tượng gồm 121.000 định lý và chứng minh phi hình thức đạt chuẩn Olympic Toán học Quốc tế (IMO), trải dài trên nhiều lĩnh vực toán học. Mỗi mục dữ liệu được kiểm duyệt kỹ lưỡng về độ chính xác, độ khó và chủ đề, kèm theo các biến thể định lý có thể kiểm chứng.

Điểm nhấn của DeepTheorem là RL-Zero - chiến lược học tăng cường được thiết kế riêng cho chứng minh định lý phi hình thức. Phương pháp này tận dụng các biến thể định lý để củng cố khả năng suy luận toán học. Hệ thống cũng đề xuất các tiêu chí đánh giá toàn diện cả về độ chính xác lẫn chất lượng từng bước lập luận.

Kết quả thử nghiệm cho thấy sự vượt trội rõ rệt so với các phương pháp hiện có. Đáng chú ý, mô hình 7B của DeepTheorem thậm chí vượt mặt những "gã khổng lồ" như Gemini và Claude 3.5, mà không cần chú thích chứng minh - chỉ cần giá trị chân lý của định lý.

Công trình này mở ra chân trời mới cho tự động hóa nghiên cứu toán học. Như nhóm nghiên cứu khẳng định: "Học qua khám phá giúp tận dụng tối đa kiến thức tiền huấn luyện của LLM". DeepTheorem chứng minh rằng sự kết hợp giữa dữ liệu chất lượng và học tăng cường có thể đánh thức tiềm năng toán học tiềm ẩn trong LLM.