双策略迭代
本篇研究考虑了马尔科夫决策过程 (Markov Decision Processes) 的无限时间折扣优化控制问题,并提供了 Policy Search 算法以及 Direct Policy Iteration 和 Conservative Policy Iteration 的性能保证,同时提出了 Non-Stationary Direct Policy Iteration 算法,并证明其时间复杂度类似于 DPI,性能保证好于 DPI,且与 CPI 相当。
Jun, 2013
本文考虑了马尔可夫决策过程所形式化的无限时间折扣率下的最优控制问题,研究了几种近似策略迭代算法,对它们进行了性能分析,显示了非静态策略迭代算法可以在内存和性能之间进行平衡。
May, 2014
本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代,并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外,讨论了多种基于此方法的实现,其中一种实现是基于一种新的模拟方案,称为几何采样。
Jul, 2015
研究大规模关系型马尔科夫决策过程(MDP)的政策选择方法,考虑一种近似政策迭代(API) 的变体,用学习步骤在政策空间中替换通常的值函数学习步骤,介绍一个关系型政策语言和相应的学习器,以及基于随机游走的面向目标的规划域的自举例行程序,实验结果表明,该系统能够解决一系列的规划域和其随机变体,但提出了一些局限性建议未来工作。
Sep, 2011
本文研究了将经典的 Conservative Policy Iteration 算法应用于深度强化学习中的实际问题,并引入了自适应混合比率的概念,通过在 Cartpole 问题和 Atari 游戏中的实验验证了该算法的有效性和稳定性,表明重新审视经典的 Approximate Dynamic Programming 可能会导致改进和更稳定的深度强化学习算法。
Jun, 2019
本研究提出一种自适应近似政策迭代 (AAPI) 学 习方案,其具有较好的理论保证,并基于在线学习技术只考虑价值函数,通过数据相关的自适应学习率和所谓的乐观损失预测相结合,可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限,在许多应用领域中取得了令人瞩目的表现。
Feb, 2020
本文提出了一种新的策略迭代方法 —— 动态策略规划(DPP),用于在无限时间马尔可夫决策过程(MDP)中估计最优策略,证明了 DPP 在估计和近似误差存在的情况下的有限迭代和渐进 l∞-norm 性能损失边界,通过数值实验表明,与现有的强化学习方法相比,在所有情况下,基于 DPP 的算法表现出更好的性能。
Apr, 2010
本文旨在探讨 Modified Policy Iteration(MPI)算法的近似形式,提出了三种扩展的适应于大规模状态和动作空间的 DP 算法,包括拟合值迭代、拟合 Q 迭代和基于分类的策略迭代,并提供了统一的误差传播分析方法。同时,对于基于分类的实现,发展了有限样本分析,以显示 MPI 的主要参数如何控制分类器的估计误差和整体价值函数的近似程度。
May, 2012
本文研究关于 Markov 决策过程的策略迭代算法的收敛性和复杂度,提出了一种复杂度上界的限制方法,不依赖于折扣因子的价值,有效地限制了策略迭代算法收敛至最优策略所需的迭代次数。
Jan, 2013
本文讨论了在学习策略时,监督者可能会变化的问题,并提出了一种从收敛监督者进行模仿学习并对其进行形式化。此外,作者将此框架与一类强化学习算法(DPI)相连,并在实验中使用最新的深度模型为监督者的方法在连续控制任务中获得了比深度强化学习基线更好的结果,并提供了多达 80 倍的策略评估加速。
Jul, 2019