雷电不会两次打中同一处：带有相互关联不确定性的稳健 MDPs

ICMLJun, 2012

雷电不会两次打中同一处：带有相互关联不确定性的稳健 MDPs

Lightning Does Not Strike Twice: Robust MDPs with Coupled Uncertainty

Shie Mannor, Ofir Mebel, Huan Xu

TL;DR基于参数不确定性的马尔可夫决策过程，引入 “雷不会击中同一个地方” 原则，对关联的不确定参数进行建模，给出概率保证，并设计出可行的算法以计算最优控制策略。

Abstract

We consider markov decision processes under parameter uncertainty. Previous studies all restrict to the case that uncertainties among different states are uncoupled, which leads to conservative solutions. In cont

markov decision processes parameter uncertainty coupled uncertain parameters optimal control policies probabilistic guarantees

发现论文，激发创造

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

鲁棒马尔可夫决策过程：超越矩形假设

本论文利用因子模型处理 Markov 决策过程中的参数不确定性问题，提出了一种鲁棒性方法来有效计算最优策略，并在相关领域进行了实验研究。

Nov, 2018

马尔可夫决策过程中的分布鲁棒对应物

本文研究了参数不确定的马尔可夫决策过程，利用分布鲁棒优化框架来得到在最具有敌意的分布下的最大性能期望值。通过将不确定参数视为随机变量，本文泛化了以前的研究并证明，在较温和的技术条件下，可以高效地获得最优策略，这极大地扩展了分布鲁棒 MDP 集成不确定性的概率信息的灵活性。

Jan, 2015

鲁棒受限制马尔科夫决策过程：在模型不确定性下进行软受限制鲁棒策略优化

本文介绍了一个基于 Constrained Markov Decision Process（CMDP）和 Robust Markov Decision Process（RMDP）的框架，即 Robust Constrained-MDPs（RCMDP），用于设计强大而稳健的强化学习算法，并提供相应的约束满足保证。同时，还将这个框架用于从模拟到真实世界的政策转移中，以实现对模型不确定性的强鲁棒性和安全保障。最后，我们在库存管理问题上验证了这个框架的有效性。

Oct, 2020

两次正则化的 MDPs 及其鲁棒性与正则化之间的等价性

该论文提出了一种新的方法来学习具有不确定性的鲁棒 Markov 决策过程，即基于正则化的鲁棒 MDP 算法，与传统的鲁棒优化方法相比，它能够有效地降低计算复杂度并提高可扩展性。

Oct, 2021

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于 MDPs 的风险受限规划算法，它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

间歇可观察的马尔科夫决策过程

本文研究了在不稳定状态信息下的 MDP，提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。

Feb, 2023

面向序列决策的分布稳健优化

该研究探讨了在不确定参数的最具对抗性分布下，实现最大期望总回报的分布鲁棒 MDP，通过在模糊集格式中加入不确定性的广义矩和统计距离信息，将泛化动量和统计距离模糊集的现有研究推广到后者类别，进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下，当满足一些温和的技术条件时，可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。

Jan, 2018

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

不确定性决策：超越概率

本文综述了决策制定中的不确定性状态，并关注走在经典解释之外的不确定性，尤其是区分了可变性不确定性和认知不确定性。作者提供了多种解决方案，包括离散和连续模型，从正式验证、控制抽象到强化学习，以优秀解法应对认知不确定性，并列举和讨论了处理丰富类型不确定性时出现的重要挑战。

Mar, 2023