加速策略梯度法: 关于强化学习中的Nesterov动量

Oct, 2023

加速策略梯度法: 关于强化学习中的Nesterov动量

Accelerated Policy Gradient: On the Nesterov Momentum for Reinforcement Learning

Yen-Ju Chen, Nai-Chieh Huang, Ping-Chun Hsieh

TL;DR加速策略梯度（APG）是一种基于Nesterov加速梯度方法的强化学习（RL）算法，通过形式化证明APG在真梯度下以接近1/t^2的速度收敛，首次给出了NAG在RL背景下的全局收敛率，数值验证显示APG相比标准策略梯度能显著改善收敛行为。

Abstract

policy gradient methods have recently been shown to enjoy global convergence at a $\Theta(1/t)$ rate in the non-regularized tabular softmax setting. Accordingly, one important research question is whether this convergence rate can be further improved, with only first-order updates. In

发现论文，激发创造

自然策略梯度方法在熵正则化下的快速全局收敛

为了证明策略优化算法的收敛性，本篇论文开发出了一种新的方法，该方法使用非统计方法提供了$ extit{非渐进}$收敛保证，并专注于受softmax参数化限制的比例调节的策略梯度算法, 重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化MDP的最优价值函数时，收敛呈线性或甚至二次收敛速度，考虑到算法的稳定性，收敛结果适应了广泛的学习速率，并阐明了熵正则化在实现快速收敛方面的作用。

Jul, 2020

基于动量的策略梯度方法

本文提出了一种基于动量的策略梯度方法，利用自适应学习率，不需要任何大批量数据，以及基于新的动量方差降低技术和重要性采样，以及力学助理技术，从而提高学习效率。作者证明，该方法具有最佳的样本复杂度，并在实验中验证了其有效性。

Jul, 2020

Softmax Policy Gradient 方法可能需要指数时间才能收敛

该研究针对softmax policy gradient方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究，给出了反例并提示了在加速PG方法中调整更新规则或强制执行适当规则化的必要性。

Feb, 2021

基于动量的策略梯度算法的全局最优收敛性

本文研究应用动量项的随机策略梯度方法的全局收敛性，并展示了在softmax和非退化Fisher策略参数化中增加动量项可以提高PG方法的全局最优采样复杂度。此外，作者提供了分析随机PG方法全局收敛速率的通用框架。

Oct, 2021

大规模马尔可夫潜在博弈的独立策略梯度：更快收敛速率，函数逼近和游戏无关收敛

本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质，提出新的独立策略梯度算法，证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2)，并在利用函数逼近的样本算法中，建立了样本复杂度为O(1/epsilon^5)的界限。同时，还找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。

Feb, 2022

熵正则化强化学习的套娃政策梯度：收敛和全局最优性

本研究介绍并研究了一种名为 Matryoshka Policy Gradient（MPG）的新型策略梯度算法，可在最大熵强化学习环境下学习相互关联的有限任务，证明了其收敛性和全局最优性，适用于神经网络参数化的策略优化，以及在标准测试基准上的数值评估。

Mar, 2023

强化学习，游戏与控制中的政策梯度方法的全局收敛性

通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎，然而，由于值函数的非凸性，保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展，特别强调了其有关突出问题参数的有限时间收敛速度。

Oct, 2023

自然策略梯度法结合基于Hessian辅助的动量方差减小的全局收敛性

本文介绍了一种新的自然策略梯度变体NPG-HM，它利用Hessian辅助的动量技术用于方差减少，子问题则通过随机梯度下降方法求解。研究结果表明，NPG-HM在一般Fisher非退化策略参数化下，能够以样本复杂度O(ε^−2)达到全局最后迭代ε-最优性，并且该方法在处理子问题时具有松弛的弱梯度优势特性和错误分解的便捷方式。此外，基于Mujoco环境的数值实验结果显示NPG-HM在性能上优于其他最先进的策略梯度方法。

Jan, 2024

政策梯度方法的基本分析

在本文中，我们对以往的优化方法进行系统研究，讨论了削影策略梯度、softmax策略梯度、自然策略梯度等算法的全局和局部收敛性，提出了新的结果和分析技术。

Apr, 2024

快速随机策略梯度：负动量用于强化学习

从利用动量的角度开发了一种称为SPG-NM的快速SPG算法，将一种新型的负动量技术应用于经典的SPG算法，其计算复杂度与现代SPG类型算法几乎相同，并在两个经典任务中评估了该算法的结果，数值实验在不同设置下对我们的SPG-NM算法的稳健性进行了确认。

May, 2024