Le Renforcement de l'Apprentissage par Feedback Humain : La Clé de l'Intelligence de ChatGPT
L'apparition de ChatGPT en 2022 a révolutionné la perception mondiale de l'intelligence artificielle. Ses performances exceptionnelles ont accéléré le développement d'autres modèles linguistiques avancés. Contrairement aux versions précédentes de GPT, ChatGPT ne repose pas uniquement sur davantage de données ou des architectures complexes. OpenAI a mis en œuvre une technique innovante : le Reinforcement Learning from Human Feedback (RLHF). Cet article explique simplement comment le RLHF, basé sur l'optimisation des politiques proximales (PPO), dépasse les limites des annotations humaines pour les LLM.
Avant ChatGPT, le développement des LLM se divisait en deux étapes : le pré-entraînement et le fine-tuning. Le pré-entraînement implique la modélisation du langage, où le modèle prédit des tokens masqués. Le fine-tuning nécessite des ensembles de données annotés manuellement, un processus long et peu scalable. Par exemple, pour un système de questions-réponses, des millions de paires (question, réponse) sont nécessaires.
Le RLHF résout ce problème en simplifiant la tâche d'annotation. Plutôt que de fournir des réponses exactes, les humains choisissent simplement la meilleure réponse parmi deux options générées par le modèle. Ces paires de réponses constituent un ensemble de données appelé "Feedback Humain".
Un modèle de récompense est ensuite entraîné pour évaluer numériquement la qualité des réponses. Ce modèle, partageant l'architecture du LLM initial, produit une valeur flottante estimant la pertinence d'une réponse. La fonction de perte compare relativement les récompenses attribuées aux bonnes et mauvaises réponses, ajustant le modèle en conséquence.
Enfin, le modèle de récompense guide l'entraînement du LLM original via un algorithme de renforcement (souvent le PPO). Pendant l'inférence, seul le LLM final est utilisé, tandis que les feedbacks utilisateurs permettent des améliorations continues. Le RLHF, cœur de modèles comme ChatGPT, Claude et Gemini, offre une méthode scalable et efficace pour former des LLM performants.