超越置信区间: 坚实的贝叶斯不确定性集合用于强韧MDPs

Feb, 2019

超越置信区间: 坚实的贝叶斯不确定性集合用于强韧MDPs

Beyond Confidence Regions: Tight Bayesian Ambiguity Sets for Robust MDPs

Marek Petrik, Reazul Hasan Russell

TL;DR通过采用贝叶斯推断优化模糊集的大小和位置，提出了一种新范式，无需使用置信区间作为模糊集，可在保证健壮性的同时获得更好的解，基于理论分析和实证结果表明其安全性和实用性。

Abstract

robust mdps (RMDPs) can be used to compute policies with provable worst-case guarantees in reinforcement learning. The quality and robustn

发现论文，激发创造

稳健MDP的严格贝叶斯模糊集

本文提出 RSVF 解决了传统 RO-MDP 方法计算策略过于保守的问题，该方法使用贝叶斯先验、优化模糊度集的大小和位置，并放宽了置信区间的要求，同时保证了安全性和实际应用价值。

Nov, 2018

鲁棒受限制马尔科夫决策过程: 在模型不确定性下进行软受限制鲁棒策略优化

本文介绍了一个基于Constrained Markov Decision Process（CMDP）和Robust Markov Decision Process（RMDP）的框架，即Robust Constrained-MDPs（RCMDP），用于设计强大而稳健的强化学习算法，并提供相应的约束满足保证。同时，还将这个框架用于从模拟到真实世界的政策转移中，以实现对模型不确定性的强鲁棒性和安全保障。最后，我们在库存管理问题上验证了这个框架的有效性。

Oct, 2020

不确定性感知策略优化：一种稳健、自适应的信任区域方法

在强化学习中，针对数据量有限的情况，提出了一种基于不确定性管理技术的深度策略优化方法，可以生成稳健的策略更新，适应学习过程中的不确定性水平。

Dec, 2020

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

低秩MDPs中的高效双重扰动鲁棒性

通过对低秩马尔科夫决策过程的特征和因子向量引入双重扰动鲁棒性的全新方法，解决了目前强化学习研究中存在的效率问题，提供了在具有大规模甚至连续状态-动作空间的实际问题中应用的可靠MDP算法以及理论收敛性保证。

Apr, 2024

具有条件风险价值的鲁棒风险敏感强化学习

使用固定过渡概率的标准马尔科夫决策过程（MDPs）的替代方案，鲁棒马尔科夫决策过程（RMDPs）在不确定性集合中优化最坏情况下的结果。本文研究了在RMDP下基于CVaR的风险敏感强化学习的鲁棒性，分析了预先设定的不确定性集合和状态动作相关的不确定性集合，提出了风险度量NCVaR和相应的优化方法，并通过仿真实验验证了该方法的有效性。

May, 2024

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

在不确定的参数环境中学习可证明的鲁棒政策

本研究解决了在过渡概率未知分布的随机环境中学习马尔可夫决策过程(MDP)政策的挑战。提出了一种数据驱动的方法，通过构建区间MDP的模型近似，以合成在采样环境下表现良好的单一政策，并提供了在未知新环境中仍能满足性能要求的保障。研究结果展示了所提方法在多种基准测试中的高性能和鲁棒性，并量化了其相关风险。

Aug, 2024