OMPO：一种面向策略和环境变化的强化学习统一框架

May, 2024

OMPO：一种面向策略和环境变化的强化学习统一框架

OMPO: A Unified Framework for RL under Policy and Dynamics Shifts

Yu Luo, Tianying Ji, Fuchun Sun, Jianwei Zhang, Huazhe Xu...

TL;DR用各种策略和动力学集合的环境交互数据训练强化学习策略面临着基本的挑战，现有研究往往忽视由策略或动力学变化引起的分布差异，或依赖于带有任务先验知识的专门算法，从而导致子优的策略表现和高学习方差。本文提出一种统一的在线强化学习策略学习策略和动力学变化多样的策略：转移占用匹配。对此，我们通过考虑转移占用差异引入了一个代理策略学习目标，并通过双重重构将其转化为可处理的极小极大优化问题。我们的方法名为占用匹配策略优化（OMPO），它具有专门的演员 - 评论家结构，配备分布鉴别器和小型本地缓冲区。我们在 OpenAI Gym、Meta-World 和 Panda Robots 环境中进行了大量实验，包括在稳态和非稳态动力学下的策略变化以及领域自适应。结果表明，OMPO 在所有设置中优于不同类别的专业基准。我们还发现，当与领域随机化结合时，OMPO 表现出特别强的性能，突显了其在基于强化学习的机器人应用中的潜力。

Abstract

Training reinforcement learning policies using environment interaction data collected from varying policies or dynamics presents a fundamental challenge. Existing works often overlook the distribution discrepancies induced by policy or dynamics shifts, or rely on specialized algorithms

reinforcement learning policy learning transition occupancy matching ompo domain randomization

发现论文，激发创造

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

基于模型的强化学习：元策略优化

提出了一种基于元策略优化的强化学习方法，使用多个学习的动态模型集合来适应真实世界的动态，提高数据利用率和鲁棒性，达到和基于经验的方法一样的渐近性能。

Sep, 2018

基于模型的策略优化与无监督模型适应

探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题，并提出了一种全新的模型自适应框架 AMPO，使用 Wasserstein-1 距离来实现模型适应，结果在多项连续控制测试任务中实现了最先进的性能。

Oct, 2020

DPO: 差分强化学习及其在最优配置搜索中的应用

提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架，命名为差分策略优化（DPO）。DPO 是一种点对点和阶段对阶段迭代方法，通过本地运动算子编码的策略进行优化，具有可扩展性，且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。

Apr, 2024

基于状态规约的动力转移数据策略优化

通过学习具有相似环境结构但不同动力学的数据的稳态分布，使用稳态分布规范化策略并构建 SRPO 算法来解决 Reinforcement Learning 算法训练数据分布不同的问题，并在实验中验证了其有效性。

Jun, 2023

乐观模型展开用于悲观离线策略优化

我们提出了一个简单而有效的基于模型的离线强化学习框架 ORPO，通过提倡更多的离群值扩展，基于乐观的 MDP 生成乐观模型推演用于悲观的离线策略优化，并在理论上证明 ORPO 训练出的策略在线性 MDP 中具有下界，实验结果显示我们的框架在广泛应用的基准测试中显著优于 P-MDP 基线，尤其在需要泛化的问题上表现出明显优势。

Jan, 2024

连续强化学习的策略优化

研究了强化学习在连续时间和空间的设置下的应用，提出了购买力占据时间的概念，并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验，验证了此方法的有效性和优势。

May, 2023

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

发现式策略优化

本文通过元学习 Mirror Learning 结构并发现一个闭合形式的强化学习算法 DPO，通过在 Brax 环境下的实验验证，证明 LPO 和 DPO 算法在性能上处于最先进的位置，并具有在未知环境中的转移能力。

Oct, 2022