BriefGPT.xyz
Apr, 2023
通过主动奖励学习实现证明反馈高效强化学习
Provably Feedback-Efficient Reinforcement Learning via Active Reward Learning
HTML
PDF
Dingwen Kong, Lin F. Yang
TL;DR
本文提供一种以人类在强化学习中的角色为基础的算法框架,旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的RL算法,通过仅在某些状态动作对上询问少量关于任务奖励的问题,保证以高概率提供几乎最优的任务策略。
Abstract
An appropriate
reward function
is of paramount importance in specifying a task in
reinforcement learning
(RL). Yet, it is known to be extremely challenging in practice to design a correct
→