RLHF
RLHF (Reinforcement Learning from Human Feedback) est une technique d'apprentissage automatique qui aligne les modèles d'IA sur les préférences humaines en utilisant la rétroaction humaine pour affiner leurs sorties.
RLHF est une technique cruciale dans le développement des grands modèles de langage (LLMs) et d'autres systèmes d'IA. Elle implique d'entraîner un modèle à générer des sorties qui sont préférées par les humains. Ceci est réalisé en collectant d'abord la rétroaction humaine sur les sorties du modèle, généralement sous forme de classements ou de comparaisons. Cette rétroaction est ensuite utilisée pour entraîner un modèle de récompense, qui prédit comment les humains évalueront les sorties du modèle. Enfin, le modèle original est affiné en utilisant l'apprentissage par renforcement, le modèle de récompense fournissant le signal de récompense. Ce processus permet d'aligner le comportement du modèle sur les valeurs et les intentions humaines, le rendant plus utile, inoffensif et conforme aux attentes des utilisateurs.
graph LR
Center["RLHF"]:::main
Pre_philosophy["philosophy"]:::pre --> Center
click Pre_philosophy "/terms/philosophy"
Rel_reinforcement_learning["reinforcement-learning"]:::related -.-> Center
click Rel_reinforcement_learning "/terms/reinforcement-learning"
Rel_machine_learning["machine-learning"]:::related -.-> Center
click Rel_machine_learning "/terms/machine-learning"
Rel_retrieval_augmented_generation["retrieval-augmented-generation"]:::related -.-> Center
click Rel_retrieval_augmented_generation "/terms/retrieval-augmented-generation"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Test de connaissances
🧒 Explique-moi comme si j'avais 5 ans
It's like teaching a robot dog tricks. First, you show it how to do the trick (supervised learning). Then, you tell it 'good dog' or 'bad dog' based on how well it does, and it learns to do the tricks you like best.
🤓 Expert Deep Dive
RLHF represents a paradigm shift from purely unsupervised or supervised learning towards incorporating explicit human preference signals into model optimization. The core technical challenge lies in the stability and efficiency of the RL phase. The reward model, being a learned proxy for human preference, can be noisy or misaligned, potentially leading to reward hacking or mode collapse. Techniques like Kullback-Leibler (KL) divergence penalties are often used in the RL objective to prevent the policy from deviating too drastically from the initial SFT model, maintaining language coherence and preventing catastrophic forgetting. The quality and diversity of the human feedback data are paramount; biases in labeling can be amplified by the reward model and subsequently by the RL-tuned LLM. Alternative approaches like Direct Preference Optimization (DPO) aim to achieve similar alignment goals by directly optimizing the LLM based on preference pairs, bypassing the explicit reward modeling step, potentially offering greater stability and simplicity.