神经策略梯度方法：全局最优性和收敛速率

Aug, 2019

神经策略梯度方法：全局最优性和收敛速率

Neural Policy Gradient Methods: Global Optimality and Rates of Convergence

Lingxiao Wang, Qi Cai, Zhuoran Yang, Zhaoran Wang

TL;DR本文介绍了使用神经网络参数化的演员评论家的政策梯度方法，证明了在超参数化范围内，神经自然策略梯度以亚线性速率收敛到全局最优策略，并且神经普通策略梯度以亚线性速率收敛到稳态点。同时证明了共享神经结构和随机初始化是全局最优解和收敛的关键。该分析为神经策略梯度方法的全局最优性和收敛性提供了第一个保证。

Abstract

policy gradient methods with actor-critic schemes demonstrate tremendous empirical successes, especially when the actors and critics are parameterized by →

policy gradient methods actor-critic schemes neural networks convergence global optimality

发现论文，激发创造

单时间尺度演员 - 评论家算法可证明找到全局最优策略

本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新，其中演员和评论家同时更新。研究结果表明，均使用线性或深度神经网络时，演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略，尤其是当使用深度神经网络时，该算法首次找到非线性函数逼近情况下的全局最优策略。

Aug, 2020

神经近端 / 信任区域策略优化实现全局最优策略

本文研究使用神经网络来完成深度强化学习中的策略优化，其中包括策略梯度和动作价值函数。在此基础上，通过分析无限维镜像下降的全局收敛性，证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略，且收敛速度为次线性。

Jun, 2019

偏置策略梯度方法的二阶收敛性初步分析

强化学习问题的非凸目标函数使得政策梯度算法收敛到一阶稳定点，但应用于无限时限贴现设置的实际实现包括 Monte-Carlo 方法和演员 - 评论家方法，在使用有偏梯度估计器的梯度下降更新时，已有的结果只考虑了无偏梯度估计器。我们通过利用非凸优化的证明技术，对有偏的政策梯度算法收敛到二阶稳定点的初步结果进行了展示，并旨在为演员 - 评论家算法提供首个有限时间的二阶收敛性分析。

Nov, 2023

强化学习的鲁棒性策略梯度方法

开发了具有全局最优性保证和复杂度分析的政策梯度方法，用于处理模型不匹配下的鲁棒强化学习，提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法，并将方法推广到广泛的非模型设置下，提供了仿真结果证明了方法的鲁棒性。

May, 2022

在线神经演员 - 评论家算法的弱收敛分析

使用在线演员 - 评论家算法训练的单层神经网络在隐藏单元数量和训练步骤数量趋于无穷大时，收敛于随机常微分方程 (ODE)。

Mar, 2024

超参数神经网络的自适应梯度方法的全局收敛性

提出了一种自适应梯度下降方法，可用于优化过度参数化的两层神经网络，并能在多项式时间内收敛到全局最小值，无需微调超参数，如步长计划，且超参数的级别与训练误差无关。

Feb, 2019

策略梯度方法全局收敛到 (几乎) 局部最优策略

本研究从非凸优化的角度出发，提出一种新的 PG method 变体，利用随机滚动谱估计策略梯度，实现策略梯度的无偏估计，并在严格鞍点假设下，证明了算法的收敛性。最终，实验证明，通过重新设计奖赏函数，可以避免不良鞍点并获得更好的极限点。

Jun, 2019

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

自然策略梯度算法的线性收敛性

本文研究了应用于马尔可夫决策过程中的自然策略梯度算法，在此基础上提出具有自适应步长的改进方法，并通过实验比较不同变种的策略梯度方法。

May, 2021

神经时序差分和 Q-learning 可以被证明收敛于全局最优解

通过超参数化来解决 neural TD 的优化非线性问题，证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解，并进一步连接到策略梯度算法的全局收敛。

May, 2019