COPlanner: 保守推进并乐观探索的模型引导强化学习规划器

Oct, 2023

COPlanner: 保守推进并乐观探索的模型引导强化学习规划器

COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL

Xiyao Wang, Ruijie Zheng, Yanchao Sun, Ruonan Jia, Wichayaporn Wongkamjan...

TL;DR提出了一种基于规划的框架 $ exttt {COPlanner}$，通过保守的模型展开和乐观的环境探索，解决了模型误差问题，提高了模型强化学习方法的样本效率和渐近性能。

Abstract

dyna-style model-based reinforcement learning contains two phases: model rollouts to generate sample for policy learning and real environment exploration using current policy for dynamics model learning. However, due to the complex real-world environment, it is inevitable to learn an i

dyna-style model-based reinforcement learning coplanner uncertainty-aware policy-guided model predictive control model uncertain regions model error

发现论文，激发创造

通过乐观策略搜索和规划实现高效的基于模型的强化学习

本文提出了一种基于模型的加强学习算法（H-UCRL），通过加强其输入空间并直接使用先验不确定性来提高探索，使得优化策略时也能区分先验不确定性和先验确定性。同时，本文针对 H-UCRL 分析了一般的后悔界，并构建了一个在高斯过程模型下证明的可证明次线性的界，进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明，本文所提出的算法在已知惩罚的情况下可以显著加速学习，并且在现有的基于模型的加强学习算法中具有广泛的适用性。

Jun, 2020

基于概率模型的策略搜索学习鲁棒控制器

通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Oct, 2021

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

利用扩散计划实现灵活的行为合成

本文通过扩展动力学模型，利用扩散概率模型去掉了传统轨迹优化方法的瓶颈，将采样和计划步骤近乎完全融合，通过分类器和图像插值获得了在线规划策略，并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。

May, 2022

深度强化学习下的模型预测行动者 - 评论家算法：加速机器人技能获取

介绍了一种基于模型预测控制的混合模型学习和无模型学习方法，名为 MoPAC，通过探索 / 利用以减轻模型偏差，可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习，并且在需要时进行探索。通过实验，MoPAC 方法优于当前最先进的方法，适用于真实机器人的训练，同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。

Mar, 2021

基于灵活约束的层次强化学习优化

该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题，提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制，能够处理成本分布的约束，并在实验中验证了其实用性。

Feb, 2023

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。

Feb, 2021

乐观模型展开用于悲观离线策略优化

我们提出了一个简单而有效的基于模型的离线强化学习框架 ORPO，通过提倡更多的离群值扩展，基于乐观的 MDP 生成乐观模型推演用于悲观的离线策略优化，并在理论上证明 ORPO 训练出的策略在线性 MDP 中具有下界，实验结果显示我们的框架在广泛应用的基准测试中显著优于 P-MDP 基线，尤其在需要泛化的问题上表现出明显优势。

Jan, 2024

模型不匹配下的受限增强学习

在训练环境下，现有的关于约束强化学习（RL）的研究可能可以获得良好的策略。然而，在真实环境中部署时，由于训练与真实环境之间可能存在模型不匹配，它可能很容易违反最初满足的约束。为了解决上述挑战，我们将问题形式化为模型不确定性下的约束强化学习，即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化（RCPO）的算法，这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。

May, 2024