SPUDD:使用决策图的随机计划
本篇论文介绍和综合了基于马尔可夫决策过程相关的方法,显示它们为建立AI中研究的许多类计划问题提供了一个统一的框架,并概述了用于易于构建策略或计划的计算工具的几种类型的表示和算法。
May, 2011
本文提出了两种近似解决因子化马尔可夫决策过程的算法,利用基函数表示近似值函数,其中每个基函数仅涉及一个小的子集,使用类似于变量消除的线性规划分解技术将指数级的LP规模缩小到多项式级别。我们的动态规划算法使用max-norm 近似技术,对于超过10^40个状态的问题,我们的算法展示了有希望的可扩展性,并将其与现有的最新技术方法进行了比较,在某些问题上计算时间得到了指数级的提升。
Jun, 2011
研究证明,使用新的紧凑表示——FODD,可以解决RMDPs,通过FODDs操作开发价值迭代算法,并证明该算法完全收敛且具有独立于领域大小或实例化的最佳策略。
Oct, 2011
本文介绍了符号动态规划(SDP)技术的扩展,提供了一种能够处理离散和连续状态的马尔可夫决策过程(DC-MDP)的最优解决方案,在 XADD 中引入约束基剪枝以提高效率。SDP 与 XADD 用于声明性问题的自动规划,从而实现在 DC-MDP 的线性和非线性函数中生成最优解决方案。
Feb, 2012
我们提出了一个框架来处理离散和连续变量的混合模型的随机规划问题,使用混合马尔可夫决策过程的方法,通过线性规划近似来解决这些问题,并遵循混合动态贝叶斯网络的表示形式,已在一系列控制问题中进行了实验。
Jul, 2012
本文总结了解决Markov决策问题及其算法运行时间的复杂性,并讨论了需要进一步研究实际算法来快速解决大问题的问题。同时,本文提出了一些基于MDP结构的替代分析方法,以鼓励未来的研究。
Feb, 2013
本文介绍了一种符号规划算法,该算法是面向以对象为中心、独立的外部事件和捕捉库存控制等问题的服务域的,该算法具有明确的关于外部事件的关系MDP的性能保证,在某些技术条件下,我们的规划算法提供了关于最优值函数的单调下界。为了支持这种算法,我们使用广义一阶决策图作为知识表示,提出了新颖的评估和约简技术。我们的规划算法使用一组焦点状态,这组状态作为一个训练集,简化和近似符号解,并且可以被视为执行规划的学习。一项初步的实验评估证明了这种方法的有效性。
Jun, 2013
本文研究了在具有线性函数逼近和生成模型的固定时间段和折扣式马尔可夫决策过程中的本地规划问题,并结合限制的特征映射来回答是否存在只需多项式数量查询的可靠规划器的问题,并提出了最小二乘值迭代算法用于计算优化方案。
Oct, 2020
本文介绍了对马尔可夫决策过程(MDP)的一种新的几何解释,该解释有助于分析主要MDP算法的动态特性。基于这种解释,我们证明了MDPs可以分成等价类,其算法动态性质难以区分。相关的标准化过程允许设计一类新的MDP求解算法,可以在不计算策略值的情况下找到最优策略。
Jul, 2024