通过冻结慢状态实现更快的近似动态规划
本文提出了一种新的策略迭代方法——动态策略规划(DPP),用于在无限时间马尔可夫决策过程(MDP)中估计最优策略,证明了DPP在估计和近似误差存在的情况下的有限迭代和渐进l∞-norm性能损失边界,通过数值实验表明,与现有的强化学习方法相比,在所有情况下,基于DPP的算法表现出更好的性能。
Apr, 2010
本文提出了两种近似解决因子化马尔可夫决策过程的算法,利用基函数表示近似值函数,其中每个基函数仅涉及一个小的子集,使用类似于变量消除的线性规划分解技术将指数级的LP规模缩小到多项式级别。我们的动态规划算法使用max-norm 近似技术,对于超过10^40个状态的问题,我们的算法展示了有希望的可扩展性,并将其与现有的最新技术方法进行了比较,在某些问题上计算时间得到了指数级的提升。
Jun, 2011
本篇研究考虑了马尔科夫决策过程(Markov Decision Processes)的无限时间折扣优化控制问题,并提供了Policy Search算法以及Direct Policy Iteration和Conservative Policy Iteration的性能保证,同时提出了Non-Stationary Direct Policy Iteration算法,并证明其时间复杂度类似于DPI,性能保证好于DPI,且与CPI相当。
Jun, 2013
本文考虑了控制具有大状态空间的马尔可夫决策过程以最小化平均成本的问题,并使用线性规划和两种方法,即基于随机凸优化和基于约束采样的方法,将性能提高到与在低维策略类中的任何策略相比的最佳水平。
Feb, 2014
本文考虑了马尔可夫决策过程所形式化的无限时间折扣率下的最优控制问题,研究了几种近似策略迭代算法,对它们进行了性能分析,显示了非静态策略迭代算法可以在内存和性能之间进行平衡。
May, 2014
本文提出了一种针对状态空间较大的MDP问题进行优化的方法,该方法基于一小组策略的占用度量的低维度逼近,并提出了一个有效的算法,可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失,并在队列应用中展示了该方法的有效性。
Jan, 2019
本论文介绍了一种基于动态规划的在线算法Real Time Dynamic Programming (RTDP),提出了一种多步贪心RTDP算法$h-RTDP$,比之前的算法在算法复杂度和样本复杂性方面有了明显改进。同时分析了在三种近似设置下的性能,并证明了在近似DP算法中与$h$-RTDP的渐进性能相同
Sep, 2019
该研究提出了一种针对MDP的决策学习与规划框架,其中决策制定者执行的动作有$m$步的延迟,研究表明使用非恒定的马尔科夫策略,可以在非常大的延迟下实现最大化奖励,并介绍了一种无需状态增强即可解决延迟执行任务的Q-learning风格模型。
Jan, 2021
论文提出了一种新的拟动态规划算法Confident Approximate Policy Iteration(CAPI),并将其应用于以局部模拟器为基础的规划问题中,该算法通过一系列策略来获得越来越精确的结果,在最小代价(内存和计算代价)下输出最优策略,同时该算法的查询复杂度较先进算法有很大的改善。
Oct, 2022
该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题,在未知参数和固定先验分布的情况下,能够稳定地获得近似最优解,适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。
Jun, 2023