Reinforcement Learning
Pekiştirmeli Öğrenme (RL), bir ajanın bir ödül sinyalini en üst düzeye çıkarmak için bir ortamda karar almayı öğrendiği bir makine öğrenimi paradigmasıdır.
RL, bir ajanın bir ortamla etkileşime girmesini, eylemler yapmasını ve ödüller veya cezalar şeklinde geri bildirim almasını içerir. Ajanın amacı, zaman içinde kümülatif ödülü en üst düzeye çıkaran eylemleri seçmek için bir strateji olan bir politika öğrenmektir. Bu öğrenme süreci genellikle, ajanın eylemlerinin ortamın durumunu etkilediği ve ortamın bu durum geçişlerine göre ödüller sağladığı bir Markov Karar Süreci (MDP) olarak modellenir.
RL algoritmaları, deneme yanılma yoluyla ortamı keşfeder ve politikalarını kademeli olarak iyileştirir. Bu keşif-sömürü değişimi çok önemlidir, çünkü ajanın yeni eylemleri (keşif) dengelemesi ve zaten elde ettiği bilgileri (sömürü) kullanması gerekir. Q-learning, SARSA ve politika gradyanları gibi çeşitli algoritmalar, RL ajanlarını eğitmek için kullanılır. Bu algoritmalar, alınan ödüllere göre ajanın politikasını veya değer fonksiyonunu güncelleyerek onu optimum davranışa yönlendirir.
graph LR
Center["Reinforcement Learning"]:::main
Pre_machine_learning["machine-learning"]:::pre --> Center
click Pre_machine_learning "/terms/machine-learning"
Rel_deep_learning["deep-learning"]:::related -.-> Center
click Rel_deep_learning "/terms/deep-learning"
Rel_game_theory["game-theory"]:::related -.-> Center
click Rel_game_theory "/terms/game-theory"
Rel_logistic_regression["logistic-regression"]:::related -.-> Center
click Rel_logistic_regression "/terms/logistic-regression"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Bilgi testi
🧒 5 yaşındaki gibi açıkla
🎮 Training a computer program like a puppy: rewarding good behavior and ignoring bad behavior until it learns to be helpful.
🤓 Expert Deep Dive
## RLHF: Aligning Human and Machine
Reinforcement Learning from Human Feedback (RLHF) is the secret sauce behind modern chatbots like ChatGPT. Since it's impossible to write a mathematical formula for 'a good, helpful answer,' we show the model pairs of answers and let humans rank them. An RL agent is then trained to predict these rankings, creating a 'Reward Model' that guides the LLM toward safe and helpful output.