ICLRMay, 2022

基于偏好的强化学习中的探索奖励不确定性

TL;DR本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题,并在 MetaWorld 基准测试的复杂机器人操作任务中证明了其有效性。