使用混合状态和动作变量解决分解的马尔可夫决策过程
我们提出了一个框架来处理离散和连续变量的混合模型的随机规划问题,使用混合马尔可夫决策过程的方法,通过线性规划近似来解决这些问题,并遵循混合动态贝叶斯网络的表示形式,已在一系列控制问题中进行了实验。
Jul, 2012
本文提出了两种近似解决因子化马尔可夫决策过程的算法,利用基函数表示近似值函数,其中每个基函数仅涉及一个小的子集,使用类似于变量消除的线性规划分解技术将指数级的 LP 规模缩小到多项式级别。我们的动态规划算法使用 max-norm 近似技术,对于超过 10^40 个状态的问题,我们的算法展示了有希望的可扩展性,并将其与现有的最新技术方法进行了比较,在某些问题上计算时间得到了指数级的提升。
Jun, 2011
本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法,该方法基于一小组策略的占用度量的低维度逼近,并提出了一个有效的算法,可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失,并在队列应用中展示了该方法的有效性。
Jan, 2019
本文考虑了控制具有大状态空间的马尔可夫决策过程以最小化平均成本的问题,并使用线性规划和两种方法,即基于随机凸优化和基于约束采样的方法,将性能提高到与在低维策略类中的任何策略相比的最佳水平。
Feb, 2014
我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法,其中使用近似线性规划计算近似值函数并实施分散策略改进。
Nov, 2023
本文提出了一种基于线性规划的解决方法,通过将价值函数在一组一阶基函数的线性表示中计算适当的权值,解决了一阶马尔科夫决策过程中与特定领域实例无关的解决方案。并将该解决方法应用于电梯调度方面,具有丰富的特征空间和多标准加性奖励,证明了其优于许多直观、启发式指导政策。
Jul, 2012
本研究提出了一种利用匿名影响的方法以提高多方系统的计算效率,尤其是在面对因交互密度增加而出现指数级价值部件大小增加的情况下,可以使之前无法求解的分解 MDP 的近似线性规划问题得到解决。
Nov, 2015
本文介绍了符号动态规划(SDP)技术的扩展,提供了一种能够处理离散和连续状态的马尔可夫决策过程(DC-MDP)的最优解决方案,在 XADD 中引入约束基剪枝以提高效率。SDP 与 XADD 用于声明性问题的自动规划,从而实现在 DC-MDP 的线性和非线性函数中生成最优解决方案。
Feb, 2012
提出一种新的随机线性规划算法,利用价值 - 策略对偶和二叉树数据结构,自适应地采样状态 - 动作 - 状态转移,并进行指数原始 - 对偶更新,从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些特殊的数据格式指定时,该算法使用线性的运行时间,在状态 - 动作对的总数中是次线性的,为解决随机动态规划问题提供了新的途径和复杂性基准。
Apr, 2017
介绍了一种新方法,用于解决具有非常大状态空间的隐式(分解式)马尔可夫决策流程(MDPs)。该方法通过 epsilon-homogeneous 分区算法将大型 MDP 转化为较小的 BMDP 以分析大型隐式 MDPs。
Feb, 2013