线性二次型调节器的策略梯度方法全局收敛

Jan, 2018

线性二次型调节器的策略梯度方法全局收敛

Global Convergence of Policy Gradient Methods for the Linear Quadratic Regulator

Maryam Fazel, Rong Ge, Sham M. Kakade, Mehran Mesbahi

TL;DR该研究桥接了基于模型和基于非模型策略梯度方法之间的差距，表明无模型的策略梯度方法全局收敛到最优解，并且在样本和计算复杂度方面效率很高。

Abstract

Direct policy gradient methods for reinforcement learning and continuous control problems are a popular approach for a variety of reasons: 1) they are easy to implement without explicit knowledge of the underlyin

policy gradient methods reinforcement learning continuous control optimal control theory global convergence

发现论文，激发创造

有限时间内的带噪声线性二次调节器的策略梯度方法

本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Nov, 2020

无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度

研究了无模型强化学习中的线性二次调节器问题，建立了梯度流动力学和随机搜索法的指数稳定性，同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。

Dec, 2019

强化学习，游戏与控制中的政策梯度方法的全局收敛性

通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎，然而，由于值函数的非凸性，保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展，特别强调了其有关突出问题参数的有限时间收敛速度。

Oct, 2023

线性 - 二次均场强化学习：策略梯度方法的收敛性

研究如何通过强化学习来解决机器人之间进行优化的问题，证明了基于策略梯度方法的算法在均值场问题中能够收敛。

Oct, 2019

策略梯度方法的全局最优性保证

该研究探讨了结构性特征对于使得 Policy gradients methods 有权达到最优点的影响，并且当这些条件变强时，可以证明其满足 Polyak-lojasiewicz 条件从而有较快的收敛速度。

Jun, 2019

策略梯度方法全局收敛到 (几乎) 局部最优策略

本研究从非凸优化的角度出发，提出一种新的 PG method 变体，利用随机滚动谱估计策略梯度，实现策略梯度的无偏估计，并在严格鞍点假设下，证明了算法的收敛性。最终，实验证明，通过重新设计奖赏函数，可以避免不良鞍点并获得更好的极限点。

Jun, 2019

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

策略梯度算法在线性二次博弈中没有收敛保证

本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究，经由分析线性二次博弈的梯度播放，得到该算法并不存在全局收敛到 Nash 平衡点的保证，且通过实验发现此类情况并不少见。

Jul, 2019

分布式策略优化：连续控制的另一种方法

研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数，可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。

May, 2019

序列零和线性二次动态博弈的策略梯度全局收敛

该研究提出了基于策略梯度的无投影序列算法来处理线性二次动力博弈问题，并证明了如果采用自然梯度下降 / 上升，该算法具有对纳什均衡的全局次线性收敛性；此外，如果领导者采用拟牛顿策略，该算法将具有全局二次收敛性。

Nov, 2019