Reinforcement Learning

Reinforcement Learning (RL) ist ein Paradigma des maschinellen Lernens, bei dem ein Agent lernt, Entscheidungen in einer Umgebung zu treffen, um ein Belohnungssignal zu maximieren.

RL beinhaltet, dass ein Agent mit einer Umgebung interagiert, Aktionen ausführt und Feedback in Form von Belohnungen oder Strafen erhält. Das Ziel des Agenten ist es, eine Richtlinie zu erlernen, also eine Strategie zur Auswahl von Aktionen, die die kumulative Belohnung im Laufe der Zeit maximiert. Dieser Lernprozess wird oft als Markov-Entscheidungsprozess (MDP) modelliert, bei dem die Aktionen des Agenten den Zustand der Umgebung beeinflussen und die Umgebung Belohnungen basierend auf diesen Zustandsübergängen bereitstellt.

RL-Algorithmen erforschen die Umgebung durch Versuch und Irrtum und verbessern ihre Richtlinie schrittweise. Dieser Kompromiss zwischen Exploration und Exploitation ist entscheidend, da der Agent das Ausprobieren neuer Aktionen (Exploration) mit der Nutzung des bereits erworbenen Wissens (Exploitation) in Einklang bringen muss. Verschiedene Algorithmen, wie z. B. Q-Learning, SARSA und Policy Gradients, werden verwendet, um RL-Agenten zu trainieren. Diese Algorithmen aktualisieren die Richtlinie oder die Wertfunktion des Agenten basierend auf den empfangenen Belohnungen und leiten ihn zu optimalem Verhalten.

        graph LR
  Center["Reinforcement Learning"]:::main
  Pre_machine_learning["machine-learning"]:::pre --> Center
  click Pre_machine_learning "/terms/machine-learning"
  Rel_deep_learning["deep-learning"]:::related -.-> Center
  click Rel_deep_learning "/terms/deep-learning"
  Rel_game_theory["game-theory"]:::related -.-> Center
  click Rel_game_theory "/terms/game-theory"
  Rel_logistic_regression["logistic-regression"]:::related -.-> Center
  click Rel_logistic_regression "/terms/logistic-regression"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Wissenstest

1 / 3

🧒 Erkläre es wie einem 5-Jährigen

🎮 Training a computer program like a puppy: rewarding good behavior and ignoring bad behavior until it learns to be helpful.

🤓 Expert Deep Dive

## RLHF: Aligning Human and Machine
Reinforcement Learning from Human Feedback (RLHF) is the secret sauce behind modern chatbots like ChatGPT. Since it's impossible to write a mathematical formula for 'a good, helpful answer,' we show the model pairs of answers and let humans rank them. An RL agent is then trained to predict these rankings, creating a 'Reward Model' that guides the LLM toward safe and helpful output.

🔗 Verwandte Begriffe

Voraussetzungen:

📚 Quellen