RLHF

RLHF(인간 피드백 기반 강화 학습)는 인간의 피드백을 사용하여 AI 모델의 출력을 개선함으로써 AI 모델을 인간의 선호도에 맞추는 기계 학습 기술입니다.

RLHF는 대규모 언어 모델(LLM) 및 기타 AI 시스템 개발에 중요한 기술입니다. 이는 인간이 선호하는 출력을 생성하도록 모델을 훈련시키는 것을 포함합니다. 이는 먼저 모델의 출력에 대한 인간의 피드백(일반적으로 순위 또는 비교 형태)을 수집하여 수행됩니다. 이 피드백은 인간이 모델의 출력을 어떻게 평가할지 예측하는 보상 모델을 훈련하는 데 사용됩니다. 마지막으로, 원래 모델은 보상 신호를 제공하는 보상 모델을 사용하여 강화 학습을 통해 미세 조정됩니다. 이 프로세스는 모델의 동작을 인간의 가치와 의도에 맞게 조정하여 더 유용하고, 무해하며, 사용자 기대에 부합하도록 돕습니다.

        graph LR
  Center["RLHF"]:::main
  Pre_philosophy["philosophy"]:::pre --> Center
  click Pre_philosophy "/terms/philosophy"
  Rel_reinforcement_learning["reinforcement-learning"]:::related -.-> Center
  click Rel_reinforcement_learning "/terms/reinforcement-learning"
  Rel_machine_learning["machine-learning"]:::related -.-> Center
  click Rel_machine_learning "/terms/machine-learning"
  Rel_retrieval_augmented_generation["retrieval-augmented-generation"]:::related -.-> Center
  click Rel_retrieval_augmented_generation "/terms/retrieval-augmented-generation"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 지식 테스트

1 / 3

🧒 5살도 이해할 수 있게 설명

It's like teaching a robot dog tricks. First, you show it how to do the trick (supervised learning). Then, you tell it 'good dog' or 'bad dog' based on how well it does, and it learns to do the tricks you like best.

🤓 Expert Deep Dive

RLHF represents a paradigm shift from purely unsupervised or supervised learning towards incorporating explicit human preference signals into model optimization. The core technical challenge lies in the stability and efficiency of the RL phase. The reward model, being a learned proxy for human preference, can be noisy or misaligned, potentially leading to reward hacking or mode collapse. Techniques like Kullback-Leibler (KL) divergence penalties are often used in the RL objective to prevent the policy from deviating too drastically from the initial SFT model, maintaining language coherence and preventing catastrophic forgetting. The quality and diversity of the human feedback data are paramount; biases in labeling can be amplified by the reward model and subsequently by the RL-tuned LLM. Alternative approaches like Direct Preference Optimization (DPO) aim to achieve similar alignment goals by directly optimizing the LLM based on preference pairs, bypassing the explicit reward modeling step, potentially offering greater stability and simplicity.

🔗 관련 용어

선행 지식:

📚 출처