面向目标的 MDP 模型中的死路理论

Oct, 2012

面向目标的 MDP 模型中的死路理论

A Theory of Goal-Oriented MDPs with Dead Ends

Andrey Kolobov, Mausam, Daniel Weld

TL;DR本文提出了三种新的 MDP 类，允许无法到达的目标，并呈现了具有理论基础的算法，探讨了这些类之间的理论关系，并进行了初步的实证研究。

Abstract

Stochastic Shortest Path (SSP) MDPs is a problem class widely studied in AI, especially in probabilistic planning. They describe a wide range of scenarios but make the restrictive assumption that the goal is reachable from any state, i.e., that dead-end states do not exist. Because of this, SSPs are unable to model various scenarios that may have catastrophi

stochastic shortest path mdps dead ends value iteration-based algorithms heuristic search algorithms empirical study

发现论文，激发创造

简化的马尔可夫决策过程：超出时间范围的视角

本文通过分析满足特定漂移条件的随机最短路径问题的子类，引入降低可达性的概念，提出了一种构建并求解随机最短路径问题和马尔可夫决策过程的多项式时间算法，经实验验证效果良好。

May, 2022

基于风险的随机最短路径

本研究针对马尔科夫决策过程中随机最短路径问题提出了一种基于条件风险价值优化的风险感知控制方法，并通过线性规划和价值迭代两种算法实现了精确而可靠的解决方案。实验结果表明该方法在多个中等规模的问题实例上是可行的。

Mar, 2022

SPUDD：使用决策图的随机计划

本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法，并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中，相较于树形结构表示方式大幅降低了节点数量。

Jan, 2013

离线随机最短路径：学习、评估与优化

本文研究了离线情况下有限状态和动作空间下的目标导向强化学习，提出基于简单值迭代的算法来解决离线策略评估和学习任务，并分析了这些算法的强实例相关界限。

Jun, 2022

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

带有对手可变成本的随机最短路径

本文提出了对抗性 SSP 模型，包含时间上对成本的不良变化和未知转移，其开发了第一个对抗性 SSP 算法，并证明了高概率的回报上限。

Jun, 2020

稀疏奖励确定性马尔可夫决策过程的快速在线精确解法

介绍了一种新的方法，确切高效地解决了具有稀疏奖励来源的确定性连续 MDP 问题，可以提高在机器人和无人系统等领域的应用价值，减少计算复杂度。

May, 2018

随机最短路径问题的高效约束生成

利用规划和运筹学的新框架，解决了随机最短路径问题中冗余计算的问题，提出了一种有效的约束生成技术，应用到了新算法 CG-iLAO*，实验证明 CG-iLAO * 相较于 LRTDP 和 iLAO * 在解决问题时速度提高了 8 倍和 3 倍，并忽略了 iLAO * 的多达 57% 的动作。

Jan, 2024

目标导向的强化学习中的无悔探索

本研究中，我们针对没有固定假设的广义 SSP 问题，提出了第一个无悔算法 UC-SSP，并且证明了它在任意未知 SSP 上的后悔上界，该后悔上界与状态数 S、动作数 A、代价和 SSP 直径 D 有关，同时引入了一套新的停止规则，用以中断当前策略并切换到新的策略以提高效率。

Dec, 2019

随机最短路径：极小 - 极大，无参数和无限时间后悔

本文旨在解决随机最短路径问题中的学习问题，并设计了一种名为 EB-SSP 的基于模型的算法。该算法通过探索奖励来诱导一个乐观的 SSP 问题，其值迭代方案已被证明会收敛，并获得与下限之间的效果。同时，该算法在不使用任何先前知识的情况下获得最小化后悔率，并在如正成本或一般成本等各种情况下均有所改善。

Apr, 2021