面向序列决策的分布稳健优化

Jan, 2018

Distributionally Robust Optimization for Sequential Decision Making

Zhi Chen, Pengqian Yu, William B. Haskell

TL;DR该研究探讨了在不确定参数的最具对抗性分布下，实现最大期望总回报的分布鲁棒 MDP，通过在模糊集格式中加入不确定性的广义矩和统计距离信息，将泛化动量和统计距离模糊集的现有研究推广到后者类别，进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下，当满足一些温和的技术条件时，可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。

Abstract

The distributionally robust markov decision process (MDP) approach asks for a distributionally robust policy that achieves the maximal expected total reward under the most adversarial distribution of

distributionally robust markov decision process policy uncertain parameters ambiguity sets convex optimization subproblems

发现论文，激发创造

马尔可夫决策过程中的分布鲁棒对应物

本文研究了参数不确定的马尔可夫决策过程，利用分布鲁棒优化框架来得到在最具有敌意的分布下的最大性能期望值。通过将不确定参数视为随机变量，本文泛化了以前的研究并证明，在较温和的技术条件下，可以高效地获得最优策略，这极大地扩展了分布鲁棒 MDP 集成不确定性的概率信息的灵活性。

Jan, 2015

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

基于分布鲁棒的强化学习基础探讨

鉴于训练和部署之间环境变化的需求，我们对分布稳健强化学习（DRRL）的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程（DRMDPs）为核心的综合建模框架，我们严谨地构建了适用于决策者和对手的各种建模属性。此外，我们还研究了对手引起的偏移的灵活性，并检验了动态规划原理的存在条件。从算法的角度来看，动态规划原理的存在具有重要意义，因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。

Nov, 2023

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

超越置信区间：坚实的贝叶斯不确定性集合用于强韧 MDPs

通过采用贝叶斯推断优化模糊集的大小和位置，提出了一种新范式，无需使用置信区间作为模糊集，可在保证健壮性的同时获得更好的解，基于理论分析和实证结果表明其安全性和实用性。

Feb, 2019

鲁棒马尔可夫决策过程：超越矩形假设

本论文利用因子模型处理 Markov 决策过程中的参数不确定性问题，提出了一种鲁棒性方法来有效计算最优策略，并在相关领域进行了实验研究。

Nov, 2018

通过强化学习扩展鲁棒的马尔可夫决策过程

本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Jun, 2013

鲁棒受限制马尔科夫决策过程：在模型不确定性下进行软受限制鲁棒策略优化

本文介绍了一个基于 Constrained Markov Decision Process（CMDP）和 Robust Markov Decision Process（RMDP）的框架，即 Robust Constrained-MDPs（RCMDP），用于设计强大而稳健的强化学习算法，并提供相应的约束满足保证。同时，还将这个框架用于从模拟到真实世界的政策转移中，以实现对模型不确定性的强鲁棒性和安全保障。最后，我们在库存管理问题上验证了这个框架的有效性。

Oct, 2020

分布鲁棒贝叶斯优化

本文通过使用最大平均偏差（MMD）来度量分布转移，研究了分布鲁棒优化的问题，在零阶、有噪音的优化设置下，提出了一种新颖的分布鲁棒贝叶斯优化算法（DRBO）。实验证明我们的算法在多个设置下能够获得次线性的稳健后悔的实现。

Feb, 2020