加速策略梯度法: 关于强化学习中的Nesterov动量
为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了$ extit{非渐进}$收敛保证,并专注于受softmax参数化限制的比例调节的策略梯度算法, 重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。
Jul, 2020
本文提出了一种基于动量的策略梯度方法,利用自适应学习率,不需要任何大批量数据,以及基于新的动量方差降低技术和重要性采样,以及力学助理技术,从而提高学习效率。作者证明,该方法具有最佳的样本复杂度,并在实验中验证了其有效性。
Jul, 2020
该研究针对softmax policy gradient方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究,给出了反例并提示了在加速PG方法中调整更新规则或强制执行适当规则化的必要性。
Feb, 2021
本文研究应用动量项的随机策略梯度方法的全局收敛性,并展示了在softmax和非退化Fisher策略参数化中增加动量项可以提高PG方法的全局最优采样复杂度。此外,作者提供了分析随机PG方法全局收敛速率的通用框架。
Oct, 2021
本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质,提出新的独立策略梯度算法,证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2),并在利用函数逼近的样本算法中,建立了样本复杂度为O(1/epsilon^5)的界限。同时,还找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。
Feb, 2022
本研究介绍并研究了一种名为 Matryoshka Policy Gradient(MPG)的新型策略梯度算法,可在最大熵强化学习环境下学习相互关联的有限任务,证明了其收敛性和全局最优性,适用于神经网络参数化的策略优化,以及在标准测试基准上的数值评估。
Mar, 2023
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。
Oct, 2023
本文介绍了一种新的自然策略梯度变体NPG-HM,它利用Hessian辅助的动量技术用于方差减少,子问题则通过随机梯度下降方法求解。研究结果表明,NPG-HM在一般Fisher非退化策略参数化下,能够以样本复杂度O(ε^−2)达到全局最后迭代ε-最优性,并且该方法在处理子问题时具有松弛的弱梯度优势特性和错误分解的便捷方式。此外,基于Mujoco环境的数值实验结果显示NPG-HM在性能上优于其他最先进的策略梯度方法。
Jan, 2024
从利用动量的角度开发了一种称为SPG-NM的快速SPG算法,将一种新型的负动量技术应用于经典的SPG算法,其计算复杂度与现代SPG类型算法几乎相同,并在两个经典任务中评估了该算法的结果,数值实验在不同设置下对我们的SPG-NM算法的稳健性进行了确认。
May, 2024