超越奖励：离线引导偏好的策略优化

May, 2023

超越奖励：离线引导偏好的策略优化

Beyond Reward: Offline Preference-guided Policy Optimization

Yachen Kang, Diyuan Shi, Jinxin Liu, Li He, Donglin Wang

TL;DR该研究关注了离线基于偏好的强化学习（PbRL）的主题，引入了一种名为离线偏好指导策略优化（OPPO）的范式，通过一步过程模型化离线轨迹和人类偏好，不需要单独学习奖励函数，成功地模拟了离线偏好并胜过了竞争基线。

Abstract

This study focuses on the topic of offline preference-based reinforcement learning (PbRL), a variant of conventional reinforcement learning that dispenses with the need for online interaction or specification of reward functions. Instead, the agent is provided with pre-existing offline trajectories and →

offline preference-based reinforcement learning offline trajectories human preferences policy optimization reward function

发现论文，激发创造

在线根据离线偏好进行政策学习

通过整合离线偏好和虚拟偏好，将离线数据和学习代理的行为进行比较，从而加强了基于偏好的强化学习中的奖励函数对代理行为的指导，提高了其泛化能力。

Mar, 2024

离线强化学习的偏好调查

利用学习到的环境模型，在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL，通过模拟轨迹获取偏好反馈，对于超出分布的数据采用悲观方法，对于获取最优策略相关的信息采用乐观方法，提供了关于样本复杂度的理论保证，最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。

Jun, 2024

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

最优奖励标注：连接离线偏好与基于奖励的强化学习

提出了一个通用框架来连接偏好反馈和标量奖励，使得现有的离线 RL 算法能够适应偏好反馈，实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线 PBRL 算法的学习效果。

Jun, 2024

行为近端策略优化

本文通过对线下单调策略改进的分析得出有趣结论，即一些在线策略算法天生就能解决离线 RL 问题，而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的，无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。

Feb, 2023

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023

POPO: 悲观离线策略优化

本文主要针对离线强化学习中的价值函数方法，提出了一种名为 POPO 的悲观离线策略优化算法，它学习了一种悲观的价值函数以获取强策略，相比于多个最先进的算法，在高维状态和动作空间中表现出色。

Dec, 2020

离线基于偏好的学徒学习

该研究提出了一种利用离线数据进行奖励函数学习和策略优化的方法，该方法不需要真实物理试验或准确的模拟器，并能够学习完成离线数据未曾显示的新任务。

Jul, 2021

价值激励偏好优化：在线和离线 RLHF 的统一方法

人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一，本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化（VPO），实现了对奖励函数的不确定性估计，并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。

May, 2024

基于模型的脱机 Planning 与轨迹剪枝

本研究提出了一个新型的轻量级基于模型的离线规划框架 MOPP，通过通过学习数据中的行为策略鼓励更激进的轨迹回放，并修剪出问题轨迹，以避免潜在的超出分布样本，相对于现有模型的离线规划和 RL 方法表现更具有竞争性。

May, 2021