马尔可夫决策过程中的分布鲁棒对应物

Jan, 2015

马尔可夫决策过程中的分布鲁棒对应物

Distributionally Robust Counterpart in Markov Decision Processes

Pengqian Yu, Huan Xu

TL;DR本文研究了参数不确定的马尔可夫决策过程，利用分布鲁棒优化框架来得到在最具有敌意的分布下的最大性能期望值。通过将不确定参数视为随机变量，本文泛化了以前的研究并证明，在较温和的技术条件下，可以高效地获得最优策略，这极大地扩展了分布鲁棒 MDP 集成不确定性的概率信息的灵活性。

Abstract

This paper studies markov decision processes under parameter uncertainty. We adapt the distributionally robust optimization framework, and

markov decision processes parameter uncertainty distributionally robust optimization random variables unknown distribution

发现论文，激发创造

面向序列决策的分布稳健优化

该研究探讨了在不确定参数的最具对抗性分布下，实现最大期望总回报的分布鲁棒 MDP，通过在模糊集格式中加入不确定性的广义矩和统计距离信息，将泛化动量和统计距离模糊集的现有研究推广到后者类别，进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下，当满足一些温和的技术条件时，可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。

Jan, 2018

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

鲁棒马尔可夫决策过程：超越矩形假设

本论文利用因子模型处理 Markov 决策过程中的参数不确定性问题，提出了一种鲁棒性方法来有效计算最优策略，并在相关领域进行了实验研究。

Nov, 2018

分布鲁棒贝叶斯优化

本文通过使用最大平均偏差（MMD）来度量分布转移，研究了分布鲁棒优化的问题，在零阶、有噪音的优化设置下，提出了一种新颖的分布鲁棒贝叶斯优化算法（DRBO）。实验证明我们的算法在多个设置下能够获得次线性的稳健后悔的实现。

Feb, 2020

基于分布鲁棒的强化学习基础探讨

鉴于训练和部署之间环境变化的需求，我们对分布稳健强化学习（DRRL）的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程（DRMDPs）为核心的综合建模框架，我们严谨地构建了适用于决策者和对手的各种建模属性。此外，我们还研究了对手引起的偏移的灵活性，并检验了动态规划原理的存在条件。从算法的角度来看，动态规划原理的存在具有重要意义，因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。

Nov, 2023

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

从数据到决策：分布鲁棒优化是最优的

本文研究随机程序的优化问题，其中决策者不能观察到外生不确定性的分布，但可以访问此分布的有限样本。作者提出了一种元优化问题来找到最不保守的预测器和处方器，以及遵守它们的样本外失望约束。利用大偏差理论的工具，作者证明了该元优化问题有唯一解。最佳预测器 - 处方器对可以通过在距离数据的经验分布一定的相对熵距离内的所有分布上求解一个分布的鲁棒优化问题来获得。

Apr, 2017

通过分布式稳健优化实现统一性能学习模型

本研究提出了一种分布鲁棒的随机优化框架，利用凸形式化来解决学习模型受到数据生成分布扰动的问题，并通过多项收敛性保准来证明模型的可靠性，同时也得出了极限定理及有关泛化到未知人群、精细化认知等真实任务的证据。

Oct, 2018

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

通过强化学习扩展鲁棒的马尔可夫决策过程

本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Jun, 2013