基于模型的强化学习有效调度

Nov, 2021

On Effective Scheduling of Model-based Reinforcement Learning

Hang Lai, Jian Shen, Weinan Zhang, Yimin Huang, Xing Zhang...

TL;DR本文提出了一个名为 AutoMBPO 的框架，可以自动调度模型驱动策略优化算法（MBPO）中的重要超参数，其中包括真实数据比例。在多项连续控制任务中，由 AutoMBPO 调度的超参数对 MBPO 的性能具有重要的改进作用，并且所找到的真实数据比例与理论分析得出的一致。

Abstract

model-based reinforcement learning has attracted wide attention due to its superior sample efficiency. Despite its impressive success so far, it is still unclear how to appropriately schedule the important hyperparameters to achieve adequate performance, such as the →

model-based reinforcement learning hyperparameters scheduling autombpo real data ratio continuous control tasks

发现论文，激发创造

论基于模型的强化学习中超参数优化的重要性

本文研究了基于模型的强化学习中的自动超参数优化方法，实验证明，与人工调参相比，自动 HPO 能显著提高算法性能，并通过动态地调整多个超参数进一步优化模型性能，实验还揭示了计划视野和学习率等超参数对模型稳定性和奖励的影响。

Feb, 2021

基于模型的强化学习：元策略优化

提出了一种基于元策略优化的强化学习方法，使用多个学习的动态模型集合来适应真实世界的动态，提高数据利用率和鲁棒性，达到和基于经验的方法一样的渐近性能。

Sep, 2018

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

基于元模型的元策略优化

本文通过将 Janner 等人 (2019) 提出的定理扩展，分析了基于模型的元强化学习方法的性能保证，并提出了具有性能保证的 Meta-Model-Based Meta-Policy Optimization (M3PO)，证明 M3PO 在连续控制基准测试中优于现有的元强化学习方法。

Jun, 2020

高效自动化深度强化学习

本文提出了一种基于群体的自动化强化学习（AutoRL）框架，该框架在优化超参数和神经网络结构的同时训练智能体，提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中，我们将元优化所需的环境交互次数减少了一个数量级。

Sep, 2020

基于模型的策略优化与无监督模型适应

探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题，并提出了一种全新的模型自适应框架 AMPO，使用 Wasserstein-1 距离来实现模型适应，结果在多项连续控制测试任务中实现了最先进的性能。

Oct, 2020

RLHF 中的策略优化：偏离偏好数据的影响

通过对直接优化偏好和基于奖励模型的策略优化的比较，该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能，并且 RMB-PO + 方法表现最佳。

Dec, 2023

双向模型基策略优化

本文提出了一种双向模型策略优化方法（BMPO），该方法通过构建正向和反向动力学模型来提高模型预测精度，从而实现更高的采样效率和渐进性能。

Jul, 2020

如何微调模型：统一模型偏移与模型偏差策略优化

设计和推导出具有性能提升保证的高效的基于模型的强化学习算法具有挑战性，主要原因是模型学习和策略优化之间的高耦合。在本文中，我们理论上推导了一种优化目标，能够统一模型漂移和模型偏差，并制定了一种微调过程。该过程自适应地调整模型更新，以获得性能改进保证，同时避免模型过拟合。基于这些，我们开发了一种简单的算法 USB-PO（Unified model Shift and model Bias Policy Optimization）。实证结果表明，USB-PO 在几个具有挑战性的基准任务上实现了最先进的性能。

Sep, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021