非折现瞬态马尔科夫模型的风险厌恶控制

Mar, 2012

非折现瞬态马尔科夫模型的风险厌恶控制

Risk-Averse Control of Undiscounted Transient Markov Models

Ozlem Cavus, Andrzej Ruszczynski

TL;DR利用马尔科夫风险度量来制定风险规避版本的马尔可夫过程的总成本问题，得出风险规避动态规划方程，并证明当使用风险度量时，随机策略可能比确定性策略更好。最后利用一个最优停止问题和器官移植问题来说明结果。

Abstract

We use markov risk measures to formulate a risk-averse version of the undiscounted total cost problem for a transient controlled Markov process. We derive risk-averse →

markov risk measures risk-averse version dynamic programming randomized policy organ transplant problem

发现论文，激发创造

风险敏感的 Markov 控制过程

本文提出了一种广义风险测量的框架，应用加权规范空间研究了马尔科夫控制过程中的风险敏感性优化问题，并提出了新的贴现方案和 Lyapunov 稳定性条件。

Oct, 2011

不确定性下的风险规避规划

本文提出基于有限状态控制器的有界策略迭代方法，通过标准的凸优化算法设计出完全风险规避的 POMDP 最优策略，并针对给定的记忆预算和优化指标对控制器进行修改以减小一致风险。

Sep, 2019

约束风险厌恶马尔可夫决策过程

该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险 - 厌恶问题的可行马尔可夫策略，并通过数值实验验证了该方法的有效性。

Dec, 2020

基于过程的风险度量和风险规避离散时间系统控制

介绍了一种新的动态风险测量方法，称为基于过程的风险测量方法，可以度量与基本过程历史相关的过程的风险；引入了条件随机时间一致性的概念，并推导出具有该性质的基于过程的风险度量的结构；证明了这些度量可以通过标准的不变风险度量进行等价表示；将该结果应用于受控马尔科夫过程，导出了动态规划方程。

Nov, 2014

基于风险的随机最短路径

本研究针对马尔科夫决策过程中随机最短路径问题提出了一种基于条件风险价值优化的风险感知控制方法，并通过线性规划和价值迭代两种算法实现了精确而可靠的解决方案。实验结果表明该方法在多个中等规模的问题实例上是可行的。

Mar, 2022

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于 MDPs 的风险受限规划算法，它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

风险敏感强化学习应用于约束条件控制

本文研究带错误状态的马尔可夫决策过程，并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务，实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。

Sep, 2011

关于静态风险度量的动态规划分解

本论文主要探讨了如何在 Markov 决策过程中，优化静态风险规避目标的问题，针对此问题，先前的研究提出了一种动态风险度量分解的方法，但本文证明了几种现有的分解是不精确的，特别是对于 CVaR 和 EVaR 风险度量，提出的分解方法是低估真实风险价值的。尽管存在一些局限性，但对于 VaR，我们提出了一种准确的分解方法，并且在论文中给出了证明。

Apr, 2023

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

马尔科夫决策过程中基于对手选择转移概率分布的在线学习

研究了在转换概率分布和损失函数是对手选择并随时间变化时，如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法，如果转换概率满足均匀混合条件，则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为每个策略计算样本路径的期望值，我们的方法就是有效的。对于一般情况的后悔小的高效算法仍然是一个开放的问题。

Mar, 2013