RLHF

RLHF (Aprendizaje por Refuerzo a partir de la Retroalimentación Humana) es una técnica de aprendizaje automático que alinea los modelos de IA con las preferencias humanas utilizando la retroalimentación humana para refinar sus resultados.

RLHF es una técnica crucial en el desarrollo de modelos de lenguaje grandes (LLMs) y otros sistemas de IA. Implica entrenar un modelo para generar resultados que sean preferidos por los humanos. Esto se logra primero recopilando la retroalimentación humana sobre los resultados del modelo, típicamente en forma de clasificaciones o comparaciones. Esta retroalimentación se utiliza luego para entrenar un modelo de recompensa, que predice cómo los humanos calificarán los resultados del modelo. Finalmente, el modelo original se ajusta finamente utilizando el aprendizaje por refuerzo, con el modelo de recompensa que proporciona la señal de recompensa. Este proceso ayuda a alinear el comportamiento del modelo con los valores e intenciones humanas, haciéndolo más útil, inofensivo y alineado con las expectativas del usuario.

        graph LR
  Center["RLHF"]:::main
  Pre_philosophy["philosophy"]:::pre --> Center
  click Pre_philosophy "/terms/philosophy"
  Rel_reinforcement_learning["reinforcement-learning"]:::related -.-> Center
  click Rel_reinforcement_learning "/terms/reinforcement-learning"
  Rel_machine_learning["machine-learning"]:::related -.-> Center
  click Rel_machine_learning "/terms/machine-learning"
  Rel_retrieval_augmented_generation["retrieval-augmented-generation"]:::related -.-> Center
  click Rel_retrieval_augmented_generation "/terms/retrieval-augmented-generation"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Prueba de conocimiento

1 / 3

🧒 Explícalo como si tuviera 5 años

It's like teaching a robot dog tricks. First, you show it how to do the trick (supervised learning). Then, you tell it 'good dog' or 'bad dog' based on how well it does, and it learns to do the tricks you like best.

🤓 Expert Deep Dive

RLHF represents a paradigm shift from purely unsupervised or supervised learning towards incorporating explicit human preference signals into model optimization. The core technical challenge lies in the stability and efficiency of the RL phase. The reward model, being a learned proxy for human preference, can be noisy or misaligned, potentially leading to reward hacking or mode collapse. Techniques like Kullback-Leibler (KL) divergence penalties are often used in the RL objective to prevent the policy from deviating too drastically from the initial SFT model, maintaining language coherence and preventing catastrophic forgetting. The quality and diversity of the human feedback data are paramount; biases in labeling can be amplified by the reward model and subsequently by the RL-tuned LLM. Alternative approaches like Direct Preference Optimization (DPO) aim to achieve similar alignment goals by directly optimizing the LLM based on preference pairs, bypassing the explicit reward modeling step, potentially offering greater stability and simplicity.

🔗 Términos relacionados

Requisitos previos:

📚 Fuentes