通过最大限度地提高信息价值的可跟踪代理来学习用户奖励模型,以与强化学习中未知动态、未知奖励函数和未知不安全状态的用户目标相一致。
Dec, 2019
通过在状态中增加Lagrange乘子并将原始-对偶方法重新解释为推动乘子演变的动态部分,本文提出了一种系统的状态增强过程,可确保解决具有约束的增强学习问题。
Feb, 2021
本文提出了一种基于人机交互的强化学习方法,通过主动查询教师偏好,学习奖励模型并使用其训练智能体,使智能体能够学习更加复杂的任务,包括各种运动和机器人操作技能。与标准奖励函数相比,我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。
Jun, 2021
本文提出 SURF,一种半监督的奖励学习框架,它使用大量的无标签样本和数据增强。实验表明,该方法显著提高了各种运动和机器人操作任务的最先进基于偏好的方法的反馈效率。
Mar, 2022
本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题,并在MetaWorld基准测试的复杂机器人操作任务中证明了其有效性。
May, 2022
本文研究强化学习中的奖励函数的学习,提出了利用先验知识和偏好数据约束奖励函数的PRIOR框架,可以降低50%的反馈数量并提高奖励函数学习和代理性能。
Oct, 2022
利用相对行为属性的概念,可以从行为片段中优化智能体的行为表现,并以远少于基线方法的反馈次数,实现非专家用户对智能体行为的偏好指定。
本文提出了两个损失函数,利用未标记的轨迹集参与奖励学习过程,并结构化奖励模型的嵌入空间以反映状态空间与操作距离之间的结构,旨在提高样本效率和奖励恢复能力,该方法在基于机械臂操作的领域上比当前的最优算法PEBBLE表现更好。
Feb, 2023
通过使用REBEL算法,我们提出了一种基于人类反馈的样本高效奖励正则化的机器人强化学习方法,并通过实验证明,REBEL方法在样本效率方面比PEBBLE和PEBBLE+SURF等现有方法取得了70%的提升。
Dec, 2023
通过从代理行为的二进制反馈中学习到的动态感知奖励函数,我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态-行动表示并从中引导基于偏好的奖励函数,我们实现了更快的策略学习和更好的最终策略性能。例如,在四足行走、行走者行走和猎豹奔跑中,在50个偏好标签的情况下,我们实现了与现有方法500个偏好标签相同的性能,并恢复了83%和66%的地面真实奖励策略性能,而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。
Feb, 2024