Reinforcement Learning
L'apprentissage par renforcement (RL) est un paradigme d'apprentissage automatique où un agent apprend à prendre des décisions dans un environnement afin de maximiser un signal de récompense.
Le RL implique qu'un agent interagit avec un environnement, prend des actions et reçoit des commentaires sous forme de récompenses ou de pénalités. L'objectif de l'agent est d'apprendre une politique, qui est une stratégie pour sélectionner des actions qui maximisent la récompense cumulative au fil du temps. Ce processus d'apprentissage est souvent modélisé comme un processus décisionnel de Markov (MDP), où les actions de l'agent influencent l'état de l'environnement, et l'environnement fournit des récompenses en fonction de ces transitions d'état.
Les algorithmes de RL explorent l'environnement par essais et erreurs, améliorant progressivement leur politique. Ce compromis exploration-exploitation est crucial, car l'agent doit équilibrer l'essai de nouvelles actions (exploration) avec l'exploitation des connaissances qu'il a déjà acquises (exploitation). Divers algorithmes, tels que Q-learning, SARSA et les gradients de politique, sont utilisés pour entraîner les agents de RL. Ces algorithmes mettent à jour la politique ou la fonction de valeur de l'agent en fonction des récompenses reçues, le guidant vers un comportement optimal.
graph LR
Center["Reinforcement Learning"]:::main
Pre_machine_learning["machine-learning"]:::pre --> Center
click Pre_machine_learning "/terms/machine-learning"
Rel_deep_learning["deep-learning"]:::related -.-> Center
click Rel_deep_learning "/terms/deep-learning"
Rel_game_theory["game-theory"]:::related -.-> Center
click Rel_game_theory "/terms/game-theory"
Rel_logistic_regression["logistic-regression"]:::related -.-> Center
click Rel_logistic_regression "/terms/logistic-regression"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Test de connaissances
🧒 Explique-moi comme si j'avais 5 ans
🎮 Training a computer program like a puppy: rewarding good behavior and ignoring bad behavior until it learns to be helpful.
🤓 Expert Deep Dive
## RLHF: Aligning Human and Machine
Reinforcement Learning from Human Feedback (RLHF) is the secret sauce behind modern chatbots like ChatGPT. Since it's impossible to write a mathematical formula for 'a good, helpful answer,' we show the model pairs of answers and let humans rank them. An RL agent is then trained to predict these rankings, creating a 'Reward Model' that guides the LLM toward safe and helpful output.