ICM : Une Révolution dans l'Entraînement des Modèles Linguistiques sans Supervision Humaine
Les méthodes post-formation pour les modèles linguistiques pré-entraînés (LM) reposent traditionnellement sur une supervision humaine via des démonstrations ou des retours d'évaluation pour définir les comportements souhaités. Cependant, cette approche présente des limites critiques lorsque les tâches et les comportements des modèles deviennent trop complexes. La supervision humaine s'avère peu fiable dans ces scénarios, car les LM apprennent à reproduire les erreurs des démonstrations ou à exploiter les failles des systèmes d'évaluation. Le défi central consiste à entraîner des LM pour des tâches dépassant les capacités humaines en termes de fiabilité des démonstrations ou des évaluations.
Des recherches récentes ont identifié divers modes d'échec, notamment le détournement des signaux de supervision conçus par l'homme ou même des évaluateurs humains eux-mêmes. Pour dépasser ces limites, les chercheurs ont exploré plusieurs approches. Une méthode courante utilise des récompenses vérifiables de haute qualité, comme l'alignement des sorties du modèle avec des solutions de référence dans des domaines mathématiques. Bien que les modèles de base pré-entraînés possèdent de fortes capacités latentes pour les tâches en aval, leur elicitation efficace reste un défi.
La méthode de recherche cohérente par contraste (CCS) est une approche d'elicitation non supervisée qui utilise la cohérence logique pour identifier des connaissances latentes sans supervision. Cependant, CCS sous-performe par rapport aux approches supervisées et échoue souvent à identifier des connaissances en raison d'autres caractéristiques satisfaisant les propriétés de cohérence.
Une équipe de chercheurs d'Anthropic, Schmidt Sciences, Independent, Constellation, de l'Université de New York et de l'Université George Washington a proposé la Maximisation de la Cohérence Interne (ICM). Cette méthode affine les modèles pré-entraînés sur leurs propres étiquettes générées, sans utiliser d'étiquettes fournies. ICM résout ce problème en recherchant des ensembles d'étiquettes à la fois logiquement cohérents et mutuellement prévisibles selon le modèle pré-entraîné.
Comme l'identification optimale des ensembles d'étiquettes reste informatiquement irréalisable, ICM utilise un algorithme de recherche inspiré du recuit simulé pour approximer l'objectif maximal. Cette méthode égale les performances de l'entraînement sur des étiquettes de référence pour TruthfulQA et GSM8K, et surpasse l'entraînement sur des étiquettes humaines crowdsourcées pour Alpaca.
L'algorithme ICM suit un processus itératif en trois étapes : (a) échantillonnage d'un nouvel exemple non étiqueté, (b) détermination de l'étiquette optimale tout en résolvant les incohérences logiques, et (c) évaluation de l'acceptation de l'exemple étiqueté basée sur une fonction de score. ICM a été évalué sur trois ensembles de données : TruthfulQA pour l'évaluation de la véracité, GSM8K-verification pour la justesse mathématique, et Alpaca pour l'utilité et l'innocuité.
Les chercheurs ont utilisé quatre modèles de référence dans leurs expériences : Zero-shot, Zero-shot (Chat), Golden Label et Human Label. Les expériences ont impliqué deux modèles open-weight, Llama 3.1 8B et 70B, et deux modèles propriétaires : Claude 3 Haiku et Claude 3.5 Haiku.
Dans les tâches d'elicitation de capacités surhumaines, ICM atteint une précision de supervision de référence de 80%, surpassant l'estimation de précision humaine de 60%. En utilisant des modèles de récompense générés par ICM, les chercheurs ont entraîné avec succès un chatbot assistant sans supervision humaine. Le modèle de récompense non supervisé atteint 75,0% de précision sur RewardBench, contre 72,2% pour les alternatives supervisées par l'homme.
De plus, en utilisant à la fois le modèle de récompense non supervisé et supervisé par l'homme, deux politiques ont été entraînées avec RL pour créer des assistants utiles, inoffensifs et honnêtes. La politique entraînée avec le RM non supervisé atteint un taux de réussite de 60%. Cependant, ces politiques restent en retard par rapport au Claude 3.5 Haiku publiquement disponible, qui atteint 92% de taux de réussite.
Ce document présente la Maximisation de la Cohérence Interne (ICM), une avancée dans l'affinage non supervisé des LM sur des étiquettes auto-générées. La méthode égale constamment les performances de supervision de référence et surpasse la supervision humaine crowdsourcée. Cependant, les limites d'ICM incluent sa dépendance à la saillance des concepts dans les modèles pré-entraînés et son inefficacité avec les entrées longues.
Alors que les LM dépassent les capacités d'évaluation humaine, ICM offre des alternatives prometteuses aux RLHF traditionnels, assurant l'alignement des modèles avec l'intention humaine sans les limites de la supervision humaine. Pour plus de détails, consultez l'article original. Tous les crédits de cette recherche reviennent aux chercheurs du projet.