最优奖励标注：连接离线偏好与基于奖励的强化学习

Jun, 2024

最优奖励标注：连接离线偏好与基于奖励的强化学习

Optimal Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning

Yinglun Xu, David Zhu, Rohan Gumastate, Gagandeep Singh

TL;DR提出了一个通用框架来连接偏好反馈和标量奖励，使得现有的离线 RL 算法能够适应偏好反馈，实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线 PBRL 算法的学习效果。

Abstract

offline reinforcement learning has become one of the most practical RL settings. A recent success story has been RLHF, offline preference-based rl (PBRL) with preference from humans. However, most existing works

offline reinforcement learning preference-based rl scalar rewards optimal reward labeling offline pbrl algorithms

发现论文，激发创造

在线根据离线偏好进行政策学习

通过整合离线偏好和虚拟偏好，将离线数据和学习代理的行为进行比较，从而加强了基于偏好的强化学习中的奖励函数对代理行为的指导，提高了其泛化能力。

Mar, 2024

超越奖励：离线引导偏好的策略优化

该研究关注了离线基于偏好的强化学习（PbRL）的主题，引入了一种名为离线偏好指导策略优化（OPPO）的范式，通过一步过程模型化离线轨迹和人类偏好，不需要单独学习奖励函数，成功地模拟了离线偏好并胜过了竞争基线。

May, 2023

通过最优输运进行离线强化学习的零样本偏好学习

提出一种新颖的零样本基于偏好的强化学习算法，利用源任务的标注偏好数据来推断目标任务的标注数据，然后利用 Gromov-Wasserstein 距离来对齐源任务和目标任务的轨迹分布，并使用 Robust Preference Transformer 模型来训练奖励函数和策略模型，其结果表明该方法具有在转移学习环境下学习偏好并能从含噪偏好标签学习奖励函数的能力。

Jun, 2023

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023

离线强化学习的偏好调查

利用学习到的环境模型，在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL，通过模拟轨迹获取偏好反馈，对于超出分布的数据采用悲观方法，对于获取最优策略相关的信息采用乐观方法，提供了关于样本复杂度的理论保证，最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。

Jun, 2024

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

May, 2024

如何运用未标记的数据进行离线强化学习

本文提出了利用未标注的数据，通过零奖励的方式来共享数据，在理论和实践中验证了该策略的有效性，并展示了如何通过简单的重新加权方法来缓解由于使用不正确的奖励标签而引入的偏置，这在模拟机器人运动、导航和操作等方面得到了证实。

Feb, 2022

离线基于偏好的学徒学习

该研究提出了一种利用离线数据进行奖励函数学习和策略优化的方法，该方法不需要真实物理试验或准确的模拟器，并能够学习完成离线数据未曾显示的新任务。

Jul, 2021

价值激励偏好优化：在线和离线 RLHF 的统一方法

人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一，本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化（VPO），实现了对奖励函数的不确定性估计，并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。

May, 2024

高效的二阶段线下深度强化学习与偏好反馈

在这项工作中，我们考虑了线下基于偏好的强化学习问题。我们关注先前强化学习从人类偏好中采用的两阶段学习方法。我们发现，在线下 PBRL 设置中应用两阶段学习存在挑战，即在第二阶段学习期间学到的效用模型可能对学习代理优化来说过于困难。为了克服这一挑战，我们提出了一种通过行为约束实现的两阶段学习方法，即行动剪辑。我们的观点是，数据集中未充分覆盖的状态 - 动作只能提供有限的信息，并增加第二阶段学习问题的复杂性。我们的方法在第二阶段学习期间忽略这些状态 - 动作，以实现更高的学习效率。我们在各种机器人控制环境中通过实证验证证明了我们的方法具有较高的学习效率。

Dec, 2023