双向模型基策略优化

ICMLJul, 2020

Bidirectional Model-based Policy Optimization

Hang Lai, Jian Shen, Weinan Zhang, Yong Yu

TL;DR本文提出了一种双向模型策略优化方法（BMPO），该方法通过构建正向和反向动力学模型来提高模型预测精度，从而实现更高的采样效率和渐进性能。

Abstract

model-based reinforcement learning approaches leverage a forward dynamics model to support planning and decision making, which, however, may fail catastrophically if the model is inaccurate. Although there are several existing methods dedicated to combating the model error, the potenti

model-based reinforcement learning forward dynamics model backwards dynamics model bidirectional model-based policy optimization sample efficiency

发现论文，激发创造

基于模型的强化学习：元策略优化

提出了一种基于元策略优化的强化学习方法，使用多个学习的动态模型集合来适应真实世界的动态，提高数据利用率和鲁棒性，达到和基于经验的方法一样的渐近性能。

Sep, 2018

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

基于模型的策略优化与无监督模型适应

探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题，并提出了一种全新的模型自适应框架 AMPO，使用 Wasserstein-1 距离来实现模型适应，结果在多项连续控制测试任务中实现了最先进的性能。

Oct, 2020

如何微调模型：统一模型偏移与模型偏差策略优化

设计和推导出具有性能提升保证的高效的基于模型的强化学习算法具有挑战性，主要原因是模型学习和策略优化之间的高耦合。在本文中，我们理论上推导了一种优化目标，能够统一模型漂移和模型偏差，并制定了一种微调过程。该过程自适应地调整模型更新，以获得性能改进保证，同时避免模型过拟合。基于这些，我们开发了一种简单的算法 USB-PO（Unified model Shift and model Bias Policy Optimization）。实证结果表明，USB-PO 在几个具有挑战性的基准任务上实现了最先进的性能。

Sep, 2023

贝叶斯策略优化模型不确定性

解决不确定性对于自主系统在现实世界中的可靠适应至关重要。我们提出了一种模型不确定性的连续 Bayes-Adaptive Markov Decision Process（BAMDP）算法，其中代理人维护潜在模型参数的后验分布，并相对于该信念分布最大化其预期长期回报。我们的算法建立在最新的策略优化算法之上，以学习通用策略，以最大化贝叶斯价值函数的探索 - 开发权衡。为了应对从离散化连续潜在参数空间带来的挑战，我们提出了一种新的策略网络体系结构，可将信念分布独立于可观察状态地编码。我们的方法显着优于没有明确考虑信念分布而解决模型不确定性的算法，并且与现有的部分可观测马尔可夫决策过程求解器竞争力相当。

Oct, 2018

在信任状态之前双重检查：基于模型的想象中的置信度感知双向离线模型

本文提出一种置信度感知的双向离线模型想象算法，使用训练好的双向动力学模型和推进策略来扩充离线数据集，以增强在线学习的推广能力。实验结果表明，该算法显著提高了现有模型无关的线下 RL 算法的性能，并与基线方法相比获得了竞争性或更好的得分。

Jun, 2022

乐观模型展开用于悲观离线策略优化

我们提出了一个简单而有效的基于模型的离线强化学习框架 ORPO，通过提倡更多的离群值扩展，基于乐观的 MDP 生成乐观模型推演用于悲观的离线策略优化，并在理论上证明 ORPO 训练出的策略在线性 MDP 中具有下界，实验结果显示我们的框架在广泛应用的基准测试中显著优于 P-MDP 基线，尤其在需要泛化的问题上表现出明显优势。

Jan, 2024

基于元模型的元策略优化

本文通过将 Janner 等人 (2019) 提出的定理扩展，分析了基于模型的元强化学习方法的性能保证，并提出了具有性能保证的 Meta-Model-Based Meta-Policy Optimization (M3PO)，证明 M3PO 在连续控制基准测试中优于现有的元强化学习方法。

Jun, 2020

RLHF 中的策略优化：偏离偏好数据的影响

通过对直接优化偏好和基于奖励模型的策略优化的比较，该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能，并且 RMB-PO + 方法表现最佳。

Dec, 2023