一种基于增量采样的随机最优控制算法

Feb, 2012

一种基于增量采样的随机最优控制算法

An Incremental Sampling-based Algorithm for Stochastic Optimal Control

Vu Anh Huynh, Sertac Karaman, Emilio Frazzoli

TL;DR本文提出了一种名为增量马尔可夫决策过程（iMDP）的算法，该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展，用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略，该算法通过状态空间的随机采样生成原问题的有限离散化序列，并且在计算过程中，能够以随时随地的方式更新控制策略。

Abstract

In this paper, we consider a class of continuous-time, continuous-space stochastic optimal control problems. Building upon recent advances in Markov chain approximation methods and sampling-based algorithms for deterministic path planning, we propose a novel algorithm called the increm

stochastic optimal control markov chain approximation incremental markov decision process expected cost motion planning

发现论文，激发创造

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题，在未知参数和固定先验分布的情况下，能够稳定地获得近似最优解，适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。

Jun, 2023

合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进

我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法，其中使用近似线性规划计算近似值函数并实施分散策略改进。

Nov, 2023

连续时间 POMDP 的近似控制

该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题，其中高维过滤分布通过投影到参数化分布族进行了近似，结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上，包括队列系统和化学反应网络，验证了该方法的有效性。

Feb, 2024

具有连续行动空间的区间马尔科夫决策过程

通过引入连续动作 Interval Markov Decision Processes (caIMDP) 以及研究求解最大化预期累积奖励的 value iteration 问题，我们证明了在动态系统控制抽象中使用线性规划等方法可以高效地实现在连续动作空间 IMDP 上的值迭代。

Nov, 2022

具有共同噪声和开环控制的均场马尔可夫决策过程

在条件 McKean-Vlasov MDP 模型中，对状态和行动间的平均场作用以及存在公共噪声和无限时间视野下的开环控制的优化进行了详尽的研究。通过间隔最优匹配证明了 CMKV-MDP 与概率测度空间上的一般抬升 MDP 之间的对应，并且通过构建值函数所满足的动态规划 Bellman 定点方程，证明了存在最优的随机反馈控制。

Dec, 2019

间歇可观察的马尔科夫决策过程

本文研究了在不稳定状态信息下的 MDP，提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。

Feb, 2023

约束马尔可夫决策过程的原始对偶方法

本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程，通过应用正则化策略迭代来改善策略，应用次梯度上升来保持约束。在弱耦合结构的情况下，通过嵌入式分解方法，能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度，并表明它产生优于现有启发式算法的控制。

Jan, 2021

通过线性规划对偶解决大规模马尔可夫决策问题

本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法，该方法基于一小组策略的占用度量的低维度逼近，并提出了一个有效的算法，可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失，并在队列应用中展示了该方法的有效性。

Jan, 2019

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022