众包数据的批量强化学习
本文介绍了一种新的算法,批量主动偏好学习,它使用尽可能少的数据样本进行有效的奖励函数学习,并具有较短的查询生成时间。我们为批量主动学习问题引入了几个近似,并为我们的算法的收敛提供了理论保证。通过在模拟中进行各种机器人任务的实验,我们的结果表明我们的批量主动学习算法仅需要少量计算时间短的查询。最后,我们将展示我们的算法在学习人类用户喜好的研究中的应用。
Oct, 2018
本研究使用深度神经网络进行强化学习,将人工反馈的目标作为奖励函数输入,并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线,并在其中 2 个游戏中获得了超人的表现,同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。
Nov, 2018
本文提出 SURF,一种半监督的奖励学习框架,它使用大量的无标签样本和数据增强。实验表明,该方法显著提高了各种运动和机器人操作任务的最先进基于偏好的方法的反馈效率。
Mar, 2022
本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题,并在MetaWorld基准测试的复杂机器人操作任务中证明了其有效性。
May, 2022
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
在这项研究中,我们介绍了Crowd-PrefRL,一个利用群体反馈进行基于偏好的强化学习的框架,该框架可以从未知专长和可靠性的群体中学习奖励函数,并且在大多数情况下,比倾向多数或任何个体用户提供的偏好的训练代理要好,尤其是当群体中用户错误率的分布较大时。
Jan, 2024
通过批次主动的偏好学习方法,本研究开发了一组新的算法,能够有效学习奖励函数并在短时间内生成少量查询,实验结果表明该算法在机器人学习中的多种任务上表现良好。
Feb, 2024
通过从代理行为的二进制反馈中学习到的动态感知奖励函数,我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态-行动表示并从中引导基于偏好的奖励函数,我们实现了更快的策略学习和更好的最终策略性能。例如,在四足行走、行走者行走和猎豹奔跑中,在50个偏好标签的情况下,我们实现了与现有方法500个偏好标签相同的性能,并恢复了83%和66%的地面真实奖励策略性能,而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。
Feb, 2024
提出了一个通用框架来连接偏好反馈和标量奖励,使得现有的离线RL算法能够适应偏好反馈,实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线PBRL算法的学习效果。
Jun, 2024