Навчання з підкріпленням (RL)

Навчання з підкріпленням (RL) — це парадигма машинного навчання, де агент навчається приймати рішення в середовищі, щоб максимізувати сигнал винагороди.

🌐 Терміни іншими мовами:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

RL передбачає взаємодію агента з середовищем, вчинення дій та отримання зворотного зв'язку у вигляді винагород або штрафів. Мета агента — навчитися стратегії, яка є стратегією вибору дій, що максимізує сукупну винагороду з часом. Цей процес навчання часто моделюється як процес прийняття рішень Маркова (MDP), де дії агента впливають на стан середовища, а середовище надає винагороди на основі цих переходів між станами.

Алгоритми RL досліджують середовище шляхом проб і помилок, поступово покращуючи свою стратегію. Цей компроміс між дослідженням та експлуатацією є вирішальним, оскільки агент повинен збалансувати спроби нових дій (дослідження) з використанням знань, які він вже отримав (експлуатація). Різні алгоритми, такі як Q-learning, SARSA та policy gradients, використовуються для навчання агентів RL. Ці алгоритми оновлюють стратегію або функцію цінності агента на основі отриманих винагород, спрямовуючи його до оптимальної поведінки.

        graph LR
  Center["Навчання з підкріпленням (RL)"]:::main
  Pre_machine_learning["machine-learning"]:::pre --> Center
  click Pre_machine_learning "/terms/machine-learning"
  Rel_deep_learning["deep-learning"]:::related -.-> Center
  click Rel_deep_learning "/terms/deep-learning"
  Rel_game_theory["game-theory"]:::related -.-> Center
  click Rel_game_theory "/terms/game-theory"
  Rel_logistic_regression["logistic-regression"]:::related -.-> Center
  click Rel_logistic_regression "/terms/logistic-regression"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Перевірка знань

1 / 3

🧒 Простими словами

🎮 Це як вчити комп'ютер грати в гру, не пояснюючи правил. Він просто тисне на кнопки: якщо рахунок зростає — він запам'ятовує вдалий хід, якщо він програє — вчиться так не робити. З часом він стає профі, просто намагаючись отримати якнайбільше 'очок'.

🤓 Expert Deep Dive

Математичною основою є Марковські процеси прийняття рішень (MDP). Сучасний прорив стався завдяки поєднанню RL з глибокими нейромережами (Deep RL). Особливо важливим для сучасних мовних моделей є метод RLHF (навчання на основі людського фідбеку), який дозволяє 'вирівнювати' ШІ з людськими цінностями та уподобаннями.