带有前瞻策略的在线规划
本文提出了一种新的策略迭代方法——动态策略规划(DPP),用于在无限时间马尔可夫决策过程(MDP)中估计最优策略,证明了DPP在估计和近似误差存在的情况下的有限迭代和渐进l∞-norm性能损失边界,通过数值实验表明,与现有的强化学习方法相比,在所有情况下,基于DPP的算法表现出更好的性能。
Apr, 2010
本文提出了两种近似解决因子化马尔可夫决策过程的算法,利用基函数表示近似值函数,其中每个基函数仅涉及一个小的子集,使用类似于变量消除的线性规划分解技术将指数级的LP规模缩小到多项式级别。我们的动态规划算法使用max-norm 近似技术,对于超过10^40个状态的问题,我们的算法展示了有希望的可扩展性,并将其与现有的最新技术方法进行了比较,在某些问题上计算时间得到了指数级的提升。
Jun, 2011
本文描述了一种新的近似动态规划方法——分布式鲁棒性近似动态规划,通过最小化对策略损失的悲观界限来解决维度灾难,将ADP转化为优化问题,提高了现有ADP方法的理论保证。 DRADP保证收敛和基于L1范数的误差界限,并在基准问题上展示了良好的性能表现。
May, 2012
本文旨在探讨Modified Policy Iteration(MPI)算法的近似形式,提出了三种扩展的适应于大规模状态和动作空间的DP算法,包括拟合值迭代、拟合Q迭代和基于分类的策略迭代,并提供了统一的误差传播分析方法。同时,对于基于分类的实现,发展了有限样本分析,以显示MPI的主要参数如何控制分类器的估计误差和整体价值函数的近似程度。
May, 2012
本文提出了一种基于线性规划的解决方法,通过将价值函数在一组一阶基函数的线性表示中计算适当的权值,解决了一阶马尔科夫决策过程中与特定领域实例无关的解决方案。并将该解决方法应用于电梯调度方面,具有丰富的特征空间和多标准加性奖励,证明了其优于许多直观、启发式指导政策。
Jul, 2012
本篇研究考虑了马尔科夫决策过程(Markov Decision Processes)的无限时间折扣优化控制问题,并提供了Policy Search算法以及Direct Policy Iteration和Conservative Policy Iteration的性能保证,同时提出了Non-Stationary Direct Policy Iteration算法,并证明其时间复杂度类似于DPI,性能保证好于DPI,且与CPI相当。
Jun, 2013
本文考虑了马尔可夫决策过程所形式化的无限时间折扣率下的最优控制问题,研究了几种近似策略迭代算法,对它们进行了性能分析,显示了非静态策略迭代算法可以在内存和性能之间进行平衡。
May, 2014
论文提出了一种新的拟动态规划算法Confident Approximate Policy Iteration(CAPI),并将其应用于以局部模拟器为基础的规划问题中,该算法通过一系列策略来获得越来越精确的结果,在最小代价(内存和计算代价)下输出最优策略,同时该算法的查询复杂度较先进算法有很大的改善。
Oct, 2022
论文提出了一种基于动态规划算法框架的近似方法,针对具有快慢结构的无穷状态空间的马尔可夫决策过程,其中“冻结”慢状态,通过解决一组简单的有限时段MDP以及在一个慢时间尺度(上层MDP)上进行价值迭代的辅助MDP等步骤,生成有效策略,以更少的计算代价实现了决策建模中遗漏慢状态的可行性。
Jan, 2023
该研究主要关注多模型马尔可夫决策过程(MMDP)和CADP策略梯度的推导与分析,提供了一种采用坐标上升方法和动态规划算法相结合的CADP解决MMDP的创新方法,并通过实验结果表明CADP在解决若干基准问题时明显优于现有方法。
Jul, 2024