Apr, 2023

通过主动奖励学习实现证明反馈高效强化学习

TL;DR本文提供一种以人类在强化学习中的角色为基础的算法框架,旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的 RL 算法,通过仅在某些状态动作对上询问少量关于任务奖励的问题,保证以高概率提供几乎最优的任务策略。