Reinforcement Learning
El Aprendizaje por Refuerzo (AR) es un paradigma de aprendizaje automático donde un agente aprende a tomar decisiones en un entorno para maximizar una señal de recompensa.
El AR implica que un agente interactúa con un entorno, toma acciones y recibe retroalimentación en forma de recompensas o penalizaciones. El objetivo del agente es aprender una política, que es una estrategia para seleccionar acciones que maximicen la recompensa acumulada a lo largo del tiempo. Este proceso de aprendizaje a menudo se modela como un Proceso de Decisión de Markov (MDP), donde las acciones del agente influyen en el estado del entorno, y el entorno proporciona recompensas basadas en estas transiciones de estado.
Los algoritmos de AR exploran el entorno mediante prueba y error, mejorando gradualmente su política. Este equilibrio entre exploración y explotación es crucial, ya que el agente debe equilibrar la prueba de nuevas acciones (exploración) con la explotación del conocimiento que ya ha adquirido (explotación). Se utilizan varios algoritmos, como Q-learning, SARSA y gradientes de política, para entrenar agentes de AR. Estos algoritmos actualizan la política o la función de valor del agente en función de las recompensas recibidas, guiándolo hacia un comportamiento óptimo.
graph LR
Center["Reinforcement Learning"]:::main
Pre_machine_learning["machine-learning"]:::pre --> Center
click Pre_machine_learning "/terms/machine-learning"
Rel_deep_learning["deep-learning"]:::related -.-> Center
click Rel_deep_learning "/terms/deep-learning"
Rel_game_theory["game-theory"]:::related -.-> Center
click Rel_game_theory "/terms/game-theory"
Rel_logistic_regression["logistic-regression"]:::related -.-> Center
click Rel_logistic_regression "/terms/logistic-regression"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Prueba de conocimiento
🧒 Explícalo como si tuviera 5 años
🎮 Training a computer program like a puppy: rewarding good behavior and ignoring bad behavior until it learns to be helpful.
🤓 Expert Deep Dive
## RLHF: Aligning Human and Machine
Reinforcement Learning from Human Feedback (RLHF) is the secret sauce behind modern chatbots like ChatGPT. Since it's impossible to write a mathematical formula for 'a good, helpful answer,' we show the model pairs of answers and let humans rank them. An RL agent is then trained to predict these rankings, creating a 'Reward Model' that guides the LLM toward safe and helpful output.