基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

Jun, 2024

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes

Larkin Liu, Shiqi Liu, Matej Jusup

TL;DR在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Abstract

In the world of stochastic control, especially in economics and engineering, markov decision processes (MDPs) can effectively model various stochastic decision processes, from asset management to transportation o

stochastic control markov decision processes causal structure sd-mdp monte carlo tree search

发现论文，激发创造

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于 MDPs 的风险受限规划算法，它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

SPUDD：使用决策图的随机计划

本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法，并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中，相较于树形结构表示方式大幅降低了节点数量。

Jan, 2013

一种基于增量采样的随机最优控制算法

本文提出了一种名为增量马尔可夫决策过程（iMDP）的算法，该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展，用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略，该算法通过状态空间的随机采样生成原问题的有限离散化序列，并且在计算过程中，能够以随时随地的方式更新控制策略。

Feb, 2012

约束风险厌恶马尔可夫决策过程

该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险 - 厌恶问题的可行马尔可夫策略，并通过数值实验验证了该方法的有效性。

Dec, 2020

当并非所有操作都可用时的强化学习

本文介绍了基于马尔可夫决策过程（MDP）中存在确定性可选动作集合的局限性，提出了一种新的基于随机动作集合的马尔可夫决策过程（SAS-MDP）模型，并针对旧 RL 算法在 SAS-MDP 中可能存在的发散问题，提出了包含独特的方差缩减技术的新的策略梯度算法以及收敛条件，并通过真实用例启发的任务实验表明了该方法的实用性。

Jun, 2019

鲁棒受限制马尔科夫决策过程：在模型不确定性下进行软受限制鲁棒策略优化

本文介绍了一个基于 Constrained Markov Decision Process（CMDP）和 Robust Markov Decision Process（RMDP）的框架，即 Robust Constrained-MDPs（RCMDP），用于设计强大而稳健的强化学习算法，并提供相应的约束满足保证。同时，还将这个框架用于从模拟到真实世界的政策转移中，以实现对模型不确定性的强鲁棒性和安全保障。最后，我们在库存管理问题上验证了这个框架的有效性。

Oct, 2020

可配置马尔可夫决策过程

本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs)，以建立环境参数配置与学习代理之间的交互模型，并通过 Safe Policy-Model Iteration (SPMI) 算法，共同自适应优化策略与环境配置，实验结果表明该方法对提高学习策略的性能有益。

Jun, 2018

风险敏感强化学习应用于约束条件控制

本文研究带错误状态的马尔可夫决策过程，并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务，实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。

Sep, 2011

实践中学习：非稳态马尔可夫决策过程中的自适应决策

在处理非平稳环境的序贯决策问题中，我们提出了一种自适应蒙特卡洛树搜索算法，通过学习环境的更新动态来改进决策过程，减少过分悲观的行为并提高决策速度。

Jan, 2024