决策论规划: 结构假设与计算杠杆
本文介绍了部分可观测马尔可夫决策过程(POMDP)的近似(启发式)方法,研究其性质和关系,并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。
Jun, 2011
本文提出了两种近似解决因子化马尔可夫决策过程的算法,利用基函数表示近似值函数,其中每个基函数仅涉及一个小的子集,使用类似于变量消除的线性规划分解技术将指数级的LP规模缩小到多项式级别。我们的动态规划算法使用max-norm 近似技术,对于超过10^40个状态的问题,我们的算法展示了有希望的可扩展性,并将其与现有的最新技术方法进行了比较,在某些问题上计算时间得到了指数级的提升。
Jun, 2011
该研究提出了一个软件平台 NMRDPP(Non-Markovian Reward Decision Process Planner)用于开发和实验决策理论计划的相关方法,其中包括基于现有和新方法的一系列方法,比如基于时间逻辑的非马尔可夫奖励函数的紧凑规范,启发式搜索和结构化方法,并通过 NMRDPP 比较这些方法并确定影响其性能的某些问题特征。
Sep, 2011
研究证明,使用新的紧凑表示——FODD,可以解决RMDPs,通过FODDs操作开发价值迭代算法,并证明该算法完全收敛且具有独立于领域大小或实例化的最佳策略。
Oct, 2011
本文介绍了符号动态规划(SDP)技术的扩展,提供了一种能够处理离散和连续状态的马尔可夫决策过程(DC-MDP)的最优解决方案,在 XADD 中引入约束基剪枝以提高效率。SDP 与 XADD 用于声明性问题的自动规划,从而实现在 DC-MDP 的线性和非线性函数中生成最优解决方案。
Feb, 2012
本研究提出了一种基于代数决策图来表示价值函数和策略的Markov决策过程的值迭代算法,并将其应用于波西网络和ADDs表示的大规模MDPs中,相较于树形结构表示方式大幅降低了节点数量。
Jan, 2013
本文总结了解决Markov决策问题及其算法运行时间的复杂性,并讨论了需要进一步研究实际算法来快速解决大问题的问题。同时,本文提出了一些基于MDP结构的替代分析方法,以鼓励未来的研究。
Feb, 2013
近年来,自动规划(AP)和强化学习(RL)的整合引起了广泛关注。为了实现这种整合,我们试图提供一个适用于从传统规划到深度强化学习的任何方法的顺序决策制定(SDM)的通用框架,该框架借鉴了概率论和贝叶斯推断的概念。我们用训练和测试的马尔可夫决策过程(MDPs)集合来定义SDM任务,以考虑泛化性。我们提供了一个SDM的通用算法,并推测每个SDM方法都基于它。根据该算法,每个SDM算法可以被看作是通过利用可用的任务知识来迭代改进其解决方案估计的过程。最后,我们推导出一组用于计算SDM任务和方法的有趣属性的公式和算法,从而使得它们的经验评估和比较成为可能。
Oct, 2023
使用局部有序偏好对具有时限目标的马尔可夫决策过程进行决策和概率规划,将部分有序偏好通过引入顺序理论映射到这些目标的偏好决策,从而综合出最喜欢的策略。
Mar, 2024
本文介绍了对马尔可夫决策过程(MDP)的一种新的几何解释,该解释有助于分析主要MDP算法的动态特性。基于这种解释,我们证明了MDPs可以分成等价类,其算法动态性质难以区分。相关的标准化过程允许设计一类新的MDP求解算法,可以在不计算策略值的情况下找到最优策略。
Jul, 2024