有限时间内的带噪声线性二次调节器的策略梯度方法

Nov, 2020

有限时间内的带噪声线性二次调节器的策略梯度方法

Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a Finite Horizon

Ben Hambly, Renyuan Xu, Huining Yang

TL;DR本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Abstract

We explore reinforcement learning methods for finding the optimal policy in the linear quadratic regulator (LQR) problem. In particular, we consider the convergence of →

reinforcement learning linear quadratic regulator policy gradient stochastic systems model-based approach

发现论文，激发创造

线性二次型调节器的策略梯度方法全局收敛

该研究桥接了基于模型和基于非模型策略梯度方法之间的差距，表明无模型的策略梯度方法全局收敛到最优解，并且在样本和计算复杂度方面效率很高。

Jan, 2018

无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度

研究了无模型强化学习中的线性二次调节器问题，建立了梯度流动力学和随机搜索法的指数稳定性，同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。

Dec, 2019

从逐步优化策略梯度的角度重新审视 LQR 控制

本文探讨了离散时间线性二次调节器问题，并从后退视角政策梯度的角度重新审视它，介绍了 RHPG 用于控制应用的无模型学习框架，并提供了一种精细的样本复杂性分析方法，以学习在不知道稳定控制策略情况下的控制策略，并证明了 RHPG 在具有流线型分析的线性控制和估计中的普遍适用性。

Feb, 2023

带熵正则化的线性二次调节器快速策略学习

该研究提出并分析了两种新的策略学习方法：正则化策略梯度（RPG）和迭代策略优化（IPO），用于一类基于无限时间地奖励折扣的线性二次调节器（LQR）问题，该问题通过熵正则化进行优化。在假设能够准确评估策略的情况下，这两种方法都被证明在找到正则化 LQR 的最佳策略时具有线性收敛性。此外，一旦进入最佳策略周围的局部区域，IPO 方法可以实现超线性收敛率。最后，当将来自已知环境中的 RL 问题的最佳策略适当转移为未知环境中的 RL 问题的初始策略时，如果后者与前者足够接近，则 IPO 方法可以实现超线性收敛率。通过数值示例支持这些提出的算法的表现。

Nov, 2023

线性 - 二次均场强化学习：策略梯度方法的收敛性

研究如何通过强化学习来解决机器人之间进行优化的问题，证明了基于策略梯度方法的算法在均值场问题中能够收敛。

Oct, 2019

策略梯度算法在线性二次博弈中没有收敛保证

本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究，经由分析线性二次博弈的梯度播放，得到该算法并不存在全局收敛到 Nash 平衡点的保证，且通过实验发现此类情况并不少见。

Jul, 2019

策略梯度方法全局收敛到 (几乎) 局部最优策略

本研究从非凸优化的角度出发，提出一种新的 PG method 变体，利用随机滚动谱估计策略梯度，实现策略梯度的无偏估计，并在严格鞍点假设下，证明了算法的收敛性。最终，实验证明，通过重新设计奖赏函数，可以避免不良鞍点并获得更好的极限点。

Jun, 2019

强化学习的鲁棒性策略梯度方法

开发了具有全局最优性保证和复杂度分析的政策梯度方法，用于处理模型不匹配下的鲁棒强化学习，提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法，并将方法推广到广泛的非模型设置下，提供了仿真结果证明了方法的鲁棒性。

May, 2022

序列零和线性二次动态博弈的策略梯度全局收敛

该研究提出了基于策略梯度的无投影序列算法来处理线性二次动力博弈问题，并证明了如果采用自然梯度下降 / 上升，该算法具有对纳什均衡的全局次线性收敛性；此外，如果领导者采用拟牛顿策略，该算法将具有全局二次收敛性。

Nov, 2019

强化学习，游戏与控制中的政策梯度方法的全局收敛性

通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎，然而，由于值函数的非凸性，保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展，特别强调了其有关突出问题参数的有限时间收敛速度。

Oct, 2023