本文介绍了符号动态规划(SDP)技术的扩展,提供了一种能够处理离散和连续状态的马尔可夫决策过程(DC-MDP)的最优解决方案,在 XADD 中引入约束基剪枝以提高效率。SDP 与 XADD 用于声明性问题的自动规划,从而实现在 DC-MDP 的线性和非线性函数中生成最优解决方案。
Feb, 2012
在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中,如蒙特卡洛树搜索(MCTS),我们还得出了算法的简单遗憾界限。最后,我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励(更低成本)的政策改进。
Jun, 2024
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs),以建立环境参数配置与学习代理之间的交互模型,并通过 Safe Policy-Model Iteration (SPMI) 算法,共同自适应优化策略与环境配置,实验结果表明该方法对提高学习策略的性能有益。
Jun, 2018
本文总结了解决 Markov 决策问题及其算法运行时间的复杂性,并讨论了需要进一步研究实际算法来快速解决大问题的问题。同时,本文提出了一些基于 MDP 结构的替代分析方法,以鼓励未来的研究。
Feb, 2013
本文提出了两种近似解决因子化马尔可夫决策过程的算法,利用基函数表示近似值函数,其中每个基函数仅涉及一个小的子集,使用类似于变量消除的线性规划分解技术将指数级的 LP 规模缩小到多项式级别。我们的动态规划算法使用 max-norm 近似技术,对于超过 10^40 个状态的问题,我们的算法展示了有希望的可扩展性,并将其与现有的最新技术方法进行了比较,在某些问题上计算时间得到了指数级的提升。
Jun, 2011
研究证明,使用新的紧凑表示 ——FODD,可以解决 RMDPs,通过 FODDs 操作开发价值迭代算法,并证明该算法完全收敛且具有独立于领域大小或实例化的最佳策略。
Oct, 2011
在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。
Jan, 2024
本文提出了一种名为增量马尔可夫决策过程(iMDP)的算法,该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展,用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略,该算法通过状态空间的随机采样生成原问题的有限离散化序列,并且在计算过程中,能够以随时随地的方式更新控制策略。
本文研究了在不稳定状态信息下的 MDP,提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。
Feb, 2023