众包数据的批量强化学习

Nov, 2021

Batch Reinforcement Learning from Crowds

Guoxi Zhang, Hisashi Kashima

TL;DR通过从偏好中学习奖励函数，本文解决了批量强化学习设置中缺乏奖励的问题，并提出了一种新的概率模型来建模标签的可靠性，利用协作的标签来平滑估计。在 Atari 数据集上的评估证明了所提出的模型的有效性，并进行了消融研究以分析所提出的想法的相对重要性。

Abstract

A shortcoming of batch reinforcement learning is its requirement for rewards in data, thus not applicable to tasks without reward functions. Existing settings for lack of reward, such as behavioral cloning, rely on optimal demonstrations collected from humans. Unfortunately, extensive

发现论文，激发创造

批量的基于偏好的奖励函数学习

本文介绍了一种新的算法，批量主动偏好学习，它使用尽可能少的数据样本进行有效的奖励函数学习，并具有较短的查询生成时间。我们为批量主动学习问题引入了几个近似，并为我们的算法的收敛提供了理论保证。通过在模拟中进行各种机器人任务的实验，我们的结果表明我们的批量主动学习算法仅需要少量计算时间短的查询。最后，我们将展示我们的算法在学习人类用户喜好的研究中的应用。

Oct, 2018

在Atari中从人类偏好和演示中进行奖励学习

本研究使用深度神经网络进行强化学习，将人工反馈的目标作为奖励函数输入，并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线，并在其中 2 个游戏中获得了超人的表现，同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。

Nov, 2018

SURF：数据增强的半监督奖励学习用于反馈高效偏好强化学习

本文提出 SURF，一种半监督的奖励学习框架，它使用大量的无标签样本和数据增强。实验表明，该方法显著提高了各种运动和机器人操作任务的最先进基于偏好的方法的反馈效率。

Mar, 2022

基于偏好的强化学习中的探索奖励不确定性

本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题，并在MetaWorld基准测试的复杂机器人操作任务中证明了其有效性。

May, 2022

人类学习奖励函数的偏好模型

通过基于遗憾而非局部回报的人类偏好模型，可以更好地学习与人类利益相符的奖励函数，从而实现政策的对齐。

Jun, 2022

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023

众智强化学习：基于众智的奖励学习

在这项研究中，我们介绍了Crowd-PrefRL，一个利用群体反馈进行基于偏好的强化学习的框架，该框架可以从未知专长和可靠性的群体中学习奖励函数，并且在大多数情况下，比倾向多数或任何个体用户提供的偏好的训练代理要好，尤其是当群体中用户错误率的分布较大时。

Jan, 2024

批量主动学习基于人类偏好的奖励函数

通过批次主动的偏好学习方法，本研究开发了一组新的算法，能够有效学习奖励函数并在短时间内生成少量查询，实验结果表明该算法在机器人学习中的多种任务上表现良好。

Feb, 2024

具有动力学感知奖励的样本高效偏好强化学习

通过从代理行为的二进制反馈中学习到的动态感知奖励函数，我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态-行动表示并从中引导基于偏好的奖励函数，我们实现了更快的策略学习和更好的最终策略性能。例如，在四足行走、行走者行走和猎豹奔跑中，在50个偏好标签的情况下，我们实现了与现有方法500个偏好标签相同的性能，并恢复了83%和66%的地面真实奖励策略性能，而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。

Feb, 2024

最优奖励标注：连接离线偏好与基于奖励的强化学习

提出了一个通用框架来连接偏好反馈和标量奖励，使得现有的离线RL算法能够适应偏好反馈，实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线PBRL算法的学习效果。

Jun, 2024