Le Renforcement de l'Apprentissage par Feedback Humain : La Clé de l'Intelligence de ChatGPT

Reinforcement Learning from Human Feedback, Explained Simply

Le Renforcement de l'Apprentissage par Feedback Humain : La Clé de l'Intelligence de ChatGPT

L'apparition de ChatGPT en 2022 a révolutionné la perception mondiale de l'intelligence artificielle. Ses performances exceptionnelles ont accéléré le développement d'autres modèles linguistiques avancés. Contrairement aux versions précédentes de GPT, ChatGPT ne repose pas uniquement sur davantage de données ou des architectures complexes. OpenAI a mis en œuvre une technique innovante : le Reinforcement Learning from Human Feedback (RLHF). Cet article explique simplement comment le RLHF, basé sur l'optimisation des politiques proximales (PPO), dépasse les limites des annotations humaines pour les LLM.

Avant ChatGPT, le développement des LLM se divisait en deux étapes : le pré-entraînement et le fine-tuning. Le pré-entraînement implique la modélisation du langage, où le modèle prédit des tokens masqués. Le fine-tuning nécessite des ensembles de données annotés manuellement, un processus long et peu scalable. Par exemple, pour un système de questions-réponses, des millions de paires (question, réponse) sont nécessaires.

Le RLHF résout ce problème en simplifiant la tâche d'annotation. Plutôt que de fournir des réponses exactes, les humains choisissent simplement la meilleure réponse parmi deux options générées par le modèle. Ces paires de réponses constituent un ensemble de données appelé "Feedback Humain".

Un modèle de récompense est ensuite entraîné pour évaluer numériquement la qualité des réponses. Ce modèle, partageant l'architecture du LLM initial, produit une valeur flottante estimant la pertinence d'une réponse. La fonction de perte compare relativement les récompenses attribuées aux bonnes et mauvaises réponses, ajustant le modèle en conséquence.

Enfin, le modèle de récompense guide l'entraînement du LLM original via un algorithme de renforcement (souvent le PPO). Pendant l'inférence, seul le LLM final est utilisé, tandis que les feedbacks utilisateurs permettent des améliorations continues. Le RLHF, cœur de modèles comme ChatGPT, Claude et Gemini, offre une méthode scalable et efficace pour former des LLM performants.

Học Tăng Cường từ Phản Hồi Con Người: Bí Quyết Giúp ChatGPT Thông Minh Vượt Trội

Sự xuất hiện của ChatGPT năm 2022 đã thay đổi hoàn toàn cách thế giới nhìn nhận về trí tuệ nhân tạo. Hiệu suất ấn tượng của ChatGPT thúc đẩy sự phát triển nhanh chóng của các mô hình ngôn ngữ lớn (LLM) khác. Khác với các phiên bản GPT trước, lần này OpenAI không chỉ sử dụng nhiều dữ liệu hơn hay kiến trúc phức tạp, mà còn áp dụng kỹ thuật đột phá: Học Tăng Cường từ Phản Hồi Con Người (RLHF). Bài viết giải thích đơn giản cách RLHF, dựa trên tối ưu chính sách gần (PPO), vượt qua giới hạn của chú thích nhân tạo cho LLM.

Trước ChatGPT, phát triển LLM gồm hai giai đoạn: tiền huấn luyện và tinh chỉnh. Tiền huấn luyện liên quan đến mô hình hóa ngôn ngữ, nơi mô hình dự đoán các token bị ẩn. Tinh chỉnh yêu cầu dữ liệu được gán nhãn thủ công, một quá trình tốn thời gian và khó mở rộng. Ví dụ, hệ thống hỏi-đáp cần hàng triệu cặp (câu hỏi, trả lời).

RLHF giải quyết vấn đề này bằng cách đơn giản hóa việc gán nhãn. Thay vì cung cấp câu trả lời chính xác, con người chỉ cần chọn đáp án tốt hơn trong hai lựa chọn do mô hình tạo ra. Các cặp phản hồi này tạo thành tập dữ liệu "Phản Hồi Con Người".

Một mô hình phần thưởng được huấn luyện để đánh giá chất lượng câu trả lời bằng số. Mô hình này, có kiến trúc giống LLM ban đầu, xuất ra giá trị float thể hiện mức độ phù hợp. Hàm mất mát so sánh tương đối phần thưở giữa câu trả lời tốt và xấu, điều chỉnh mô hình phù hợp.

Cuối cùng, mô hình phần thưởng hướng dẫn huấn luyện LLM gốc thông qua thuật toán tăng cường (thường là PPO). Trong quá trình suy luận, chỉ LLM cuối cùng được sử dụng, trong khi phản hồi người dùng giúp cải thiện liên tục. RLHF, lõi của ChatGPT, Claude và Gemini, là phương pháp hiệu quả và scalable để đào tạo LLM mạnh mẽ.