自然策略梯度算法的线性收敛性
为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了$ extit{非渐进}$收敛保证,并专注于受softmax参数化限制的比例调节的策略梯度算法, 重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。
Jul, 2020
本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了PMD方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度,并展示了此正则化的应用性。
Jan, 2021
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始-对偶方法来解决Constrained Markov决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。
Jun, 2022
研究自然政策梯度算法在无限时间段折扣马尔可夫决策过程中的收敛速度,其中 Q-value 函数能够被已知特征函数的线性组合近似到偏差误差内,且算法具有相同的线性收敛保证,依赖于估计误差、偏差误差和特征协方差矩阵的条件数。
Sep, 2022
本研究考虑了无限期折扣马尔可夫决策过程,并研究了自然策略梯度和Q-NPG方法在对数线性策略类下的收敛速度及样本复杂性,其在非自适应几何递增步长下可以实现线性收敛率和样本复杂度的约为O(1/epsilon^2)。
Oct, 2022
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。
Oct, 2023
本文介绍了一种新的自然策略梯度变体NPG-HM,它利用Hessian辅助的动量技术用于方差减少,子问题则通过随机梯度下降方法求解。研究结果表明,NPG-HM在一般Fisher非退化策略参数化下,能够以样本复杂度O(ε^−2)达到全局最后迭代ε-最优性,并且该方法在处理子问题时具有松弛的弱梯度优势特性和错误分解的便捷方式。此外,基于Mujoco环境的数值实验结果显示NPG-HM在性能上优于其他最先进的策略梯度方法。
Jan, 2024
该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度,如果采用良好的初始策略进行初始化,则收敛速度为O(1/√T)。此外,针对大类排队马尔可夫决策过程,最大权重策略足以满足我们的初始策略要求并实现O(1/√T)的收敛速度。关键是根据NPG算法的迭代策略所达到的相对值函数,我们得出了这一结果。
Feb, 2024