ICM : Une Révolution dans l'Entraînement des Modèles Linguistiques sans Supervision Humaine

Internal Coherence Maximization (ICM): A Label-Free, Unsupervised Training Framework for LLMs

ICM : Une Révolution dans l'Entraînement des Modèles Linguistiques sans Supervision Humaine

Les méthodes post-formation pour les modèles linguistiques pré-entraînés (LM) reposent traditionnellement sur une supervision humaine via des démonstrations ou des retours d'évaluation pour définir les comportements souhaités. Cependant, cette approche présente des limites critiques lorsque les tâches et les comportements des modèles deviennent trop complexes. La supervision humaine s'avère peu fiable dans ces scénarios, car les LM apprennent à reproduire les erreurs des démonstrations ou à exploiter les failles des systèmes d'évaluation. Le défi central consiste à entraîner des LM pour des tâches dépassant les capacités humaines en termes de fiabilité des démonstrations ou des évaluations.

Des recherches récentes ont identifié divers modes d'échec, notamment le détournement des signaux de supervision conçus par l'homme ou même des évaluateurs humains eux-mêmes. Pour dépasser ces limites, les chercheurs ont exploré plusieurs approches. Une méthode courante utilise des récompenses vérifiables de haute qualité, comme l'alignement des sorties du modèle avec des solutions de référence dans des domaines mathématiques. Bien que les modèles de base pré-entraînés possèdent de fortes capacités latentes pour les tâches en aval, leur elicitation efficace reste un défi.

La méthode de recherche cohérente par contraste (CCS) est une approche d'elicitation non supervisée qui utilise la cohérence logique pour identifier des connaissances latentes sans supervision. Cependant, CCS sous-performe par rapport aux approches supervisées et échoue souvent à identifier des connaissances en raison d'autres caractéristiques satisfaisant les propriétés de cohérence.

Une équipe de chercheurs d'Anthropic, Schmidt Sciences, Independent, Constellation, de l'Université de New York et de l'Université George Washington a proposé la Maximisation de la Cohérence Interne (ICM). Cette méthode affine les modèles pré-entraînés sur leurs propres étiquettes générées, sans utiliser d'étiquettes fournies. ICM résout ce problème en recherchant des ensembles d'étiquettes à la fois logiquement cohérents et mutuellement prévisibles selon le modèle pré-entraîné.

Comme l'identification optimale des ensembles d'étiquettes reste informatiquement irréalisable, ICM utilise un algorithme de recherche inspiré du recuit simulé pour approximer l'objectif maximal. Cette méthode égale les performances de l'entraînement sur des étiquettes de référence pour TruthfulQA et GSM8K, et surpasse l'entraînement sur des étiquettes humaines crowdsourcées pour Alpaca.

L'algorithme ICM suit un processus itératif en trois étapes : (a) échantillonnage d'un nouvel exemple non étiqueté, (b) détermination de l'étiquette optimale tout en résolvant les incohérences logiques, et (c) évaluation de l'acceptation de l'exemple étiqueté basée sur une fonction de score. ICM a été évalué sur trois ensembles de données : TruthfulQA pour l'évaluation de la véracité, GSM8K-verification pour la justesse mathématique, et Alpaca pour l'utilité et l'innocuité.

Les chercheurs ont utilisé quatre modèles de référence dans leurs expériences : Zero-shot, Zero-shot (Chat), Golden Label et Human Label. Les expériences ont impliqué deux modèles open-weight, Llama 3.1 8B et 70B, et deux modèles propriétaires : Claude 3 Haiku et Claude 3.5 Haiku.

Dans les tâches d'elicitation de capacités surhumaines, ICM atteint une précision de supervision de référence de 80%, surpassant l'estimation de précision humaine de 60%. En utilisant des modèles de récompense générés par ICM, les chercheurs ont entraîné avec succès un chatbot assistant sans supervision humaine. Le modèle de récompense non supervisé atteint 75,0% de précision sur RewardBench, contre 72,2% pour les alternatives supervisées par l'homme.

De plus, en utilisant à la fois le modèle de récompense non supervisé et supervisé par l'homme, deux politiques ont été entraînées avec RL pour créer des assistants utiles, inoffensifs et honnêtes. La politique entraînée avec le RM non supervisé atteint un taux de réussite de 60%. Cependant, ces politiques restent en retard par rapport au Claude 3.5 Haiku publiquement disponible, qui atteint 92% de taux de réussite.

Ce document présente la Maximisation de la Cohérence Interne (ICM), une avancée dans l'affinage non supervisé des LM sur des étiquettes auto-générées. La méthode égale constamment les performances de supervision de référence et surpasse la supervision humaine crowdsourcée. Cependant, les limites d'ICM incluent sa dépendance à la saillance des concepts dans les modèles pré-entraînés et son inefficacité avec les entrées longues.

Alors que les LM dépassent les capacités d'évaluation humaine, ICM offre des alternatives prometteuses aux RLHF traditionnels, assurant l'alignement des modèles avec l'intention humaine sans les limites de la supervision humaine. Pour plus de détails, consultez l'article original. Tous les crédits de cette recherche reviennent aux chercheurs du projet.

ICM: Đột Phá Huấn Luyện AI Không Cần Giám Sát Con Người

Các phương pháp hậu huấn luyện cho mô hình ngôn ngữ tiền huấn luyện (LM) thường phụ thuộc vào giám sát con người thông qua minh họa hoặc phản hồi đánh giá để xác định hành vi mong muốn. Tuy nhiên, cách tiếp cận này bộc lộ hạn chế nghiêm trọng khi nhiệm vụ và hành vi mô hình trở nên quá phức tạp. Giám sát con người trở nên thiếu tin cậy trong các tình huống này, khi LM học cách bắt chước lỗi từ minh họa hoặc khai thác điểm yếu trong hệ thống đánh giá.

Thách thức cốt lõi nằm ở việc huấn luyện LM cho các nhiệm vụ vượt quá khả năng đánh giá đáng tin cậy của con người. Nghiên cứu gần đây đã xác định nhiều kiểu thất bại, bao gồm việc lợi dụng tín hiệu giám sát do con người thiết kế hoặc chính người đánh giá. Để vượt qua giới hạn này, các nhà nghiên cứu đã khám phá nhiều hướng tiếp cận khác nhau.

Một phương pháp phổ biến sử dụng phần thưởng chất lượng cao có thể kiểm chứng, như so khớp đầu ra mô hình với lời giải chuẩn trong lĩnh vực toán học. Dù các mô hình tiền huấn luyện có tiềm năng lớn cho nhiệm vụ hạ nguồn, việc khơi gợi hiệu quả vẫn là thách thức. Phương pháp Tìm kiếm Nhất quán Đối lập (CCS) là cách tiếp cận không giám sát sử dụng tính nhất quán logic để xác định tri thức tiềm ẩn.

Nhóm nghiên cứu từ Anthropic, Schmidt Sciences, Independent, Constellation, Đại học New York và Đại học George Washington đã đề xuất Tối đa hóa Tính Nhất quán Nội bộ (ICM). Phương pháp này tinh chỉnh mô hình tiền huấn luyện trên nhãn tự sinh mà không cần nhãn cung cấp. ICM giải quyết vấn đề bằng cách tìm kiếm bộ nhãn vừa nhất quán logic vừa có thể dự đoán lẫn nhau theo mô hình tiền huấn luyện.

Do việc xác định bộ nhãn tối ưu vẫn bất khả thi về mặt tính toán, ICM sử dụng thuật toán tìm kiếm lấy cảm hứng từ ủ mô phỏng để xấp xỉ mục tiêu tối đa. Phương pháp này ngang bằng hiệu suất huấn luyện trên nhãn vàng cho TruthfulQA và GSM8K, vượt trội huấn luyện trên nhãn crowdsource từ con người cho Alpaca.

Thuật toán ICM hoạt động theo quy trình lặp ba bước: (a) lấy mẫu ví dụ không nhãn mới, (b) xác định nhãn tối ưu đồng thời giải quyết bất kỳ bất nhất logic nào, và (c) đánh giá việc chấp nhận ví dụ đã gán nhãn dựa trên hàm tính điểm. ICM được đánh giá trên ba bộ dữ liệu: TruthfulQA đánh giá tính trung thực, GSM8K-verification cho độ chính xác toán học, và Alpaca cho tính hữu ích và vô hại.

Các nhà nghiên cứu sử dụng bốn mô hình baseline: Zero-shot, Zero-shot (Chat), Nhãn Vàng và Nhãn Người. Thí nghiệm sử dụng hai mô hình mã nguồn mở Llama 3.1 8B và 70B, cùng hai mô hình độc quyền Claude 3 Haiku và Claude 3.5 Haiku.

Trong nhiệm vụ khơi gợi năng lực siêu nhân, ICM đạt độ chính xác giám sát vàng 80%, vượt ước tính độ chính xác con người 60%. Sử dụng mô hình phần thưởng do ICM tạo ra, các nhà nghiên cứu thành công huấn luyện chatbot trợ lý không cần giám sát người. Mô hình phần thưởng không giám sát đạt 75,0% độ chính xác trên RewardBench, so với 72,2% của phương án giám sát bởi người.

Bằng cách kết hợp cả mô hình phần thưởng không giám sát và giám sát bởi người, hai chính sách được huấn luyện bằng RL để tạo trợ lý hữu ích, vô hại và trung thực. Chính sách huấn luyện bằng RM không giám sát đạt tỷ lệ thắng 60%. Tuy nhiên, các chính sách này vẫn thua Claude 3.5 Haiku công khai đạt 92% tỷ lệ thắng.

Bài báo giới thiệu Tối đa hóa Tính Nhất quán Nội bộ (ICM), bước tiến trong tinh chỉnh LM không giám sát trên nhãn tự sinh. Phương pháp liên tục đạt hiệu suất giám sát vàng và vượt giám sát crowdsource từ người. Hạn chế của ICM bao gồm phụ thuộc vào độ nổi bật khái niệm trong mô hình tiền huấn luyện và kém hiệu quả với đầu vào dài.

Khi LM vượt năng lực đánh giá con người, ICM đề xuất giải pháp thay thế triển vọng cho RLHF truyền thống, đảm bảo mô hình phù hợp ý định người mà không bị giới hạn bởi giám sát con người. Để biết thêm chi tiết, tham khảo bài báo gốc. Mọi công trạng nghiên cứu thuộc về nhóm tác giả dự án.