行为近端策略优化

ICLRFeb, 2023

Behavior Proximal Policy Optimization

Zifeng Zhuang, Kun Lei, Jinxin Liu, Donglin Wang, Yilang Guo

TL;DR本文通过对线下单调策略改进的分析得出有趣结论，即一些在线策略算法天生就能解决离线 RL 问题，而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的，无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。

Abstract

offline reinforcement learning (RL) is a challenging setting where existing off-policy actor-critic methods perform poorly due to the overestimation of out-of-distribution state-action pairs. Thus, various additi

offline reinforcement learning actor-critic methods behavior proximal policy optimization rl algorithms d4rl benchmark

发现论文，激发创造

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

POPO: 悲观离线策略优化

本文主要针对离线强化学习中的价值函数方法，提出了一种名为 POPO 的悲观离线策略优化算法，它学习了一种悲观的价值函数以获取强策略，相比于多个最先进的算法，在高维状态和动作空间中表现出色。

Dec, 2020

超越奖励：离线引导偏好的策略优化

该研究关注了离线基于偏好的强化学习（PbRL）的主题，引入了一种名为离线偏好指导策略优化（OPPO）的范式，通过一步过程模型化离线轨迹和人类偏好，不需要单独学习奖励函数，成功地模拟了离线偏好并胜过了竞争基线。

May, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

一种面向离线强化学习的策略引导仿真方法

该研究提出了一种 Policy-guided Offline RL 算法，该算法在训练时将想法分解为指导策略和执行策略，并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能，并可以通过改变指导策略来轻松适应新的任务。

Oct, 2022

离线强化学习策略应该被训练成具有自适应性

该研究提出离线 RL 方法应该适应不确定性，提出了一种基于贝叶斯优化的自适应算法用于近似离线 RL 的最优自适应策略，并且在离线 RL 基准测试中展示了其有效性。

Jul, 2022

离线强化学习的行为先验表示学习

该研究提出了一种名为 BPR 的学习状态表示的简单有效方法，结合离线 RL 算法在多个控制基准测试中表现出明显的改进，其理论上可以实现保守算法的策略改进保证或产生策略值下限的算法。

Nov, 2022

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

通过无关行为的发散正则化来实现稳定的政策优化

在这篇论文中，我们提出了一种新的算法，它通过一种接近性项稳定了策略改进，并限制由连续策略引发的折扣状态行动访问分布彼此接近，并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明，我们提出的方法可以对稳定性产生有益影响，并提高最终性能.

Mar, 2020

悲观引导的不确定性驱动离线强化学习

本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL)，它通过引入一种 Q 函数的不确定度来量化不确定性，并以此进行悲观更新，以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明，相比现有算法，PBRL 具有更好的性能表现。

Feb, 2022