学习估计器设计中基于消失视野策略搜索的全局收敛

Sep, 2023

学习估计器设计中基于消失视野策略搜索的全局收敛

Global Convergence of Receding-Horizon Policy Search in Learning Estimator Designs

Xiangyuan Zhang, Saviz Mowlavi, Mouhacine Benosman, Tamer Başar

TL;DR提出了回溯视角策略梯度（RHPG）算法，是第一个在学习最优线性估计器设计（即 Kalman 滤波器）方面具有可证明的全局收敛性的 PG 算法。这项工作旨在通过在算法设计和理论分析中利用经典控制理论，开发具有性能保证的强化学习算法，同时验证了该算法的有效性。

Abstract

We introduce the receding-horizon policy gradient (RHPG) algorithm, the first PG algorithm with provable global convergence in learning the optimal linear estimator designs, i.e., the kalman filter (KF). Notably,

receding-horizon policy gradient optimal linear estimator designs kalman filter dynamic programming outer loop sample complexity guarantees

发现论文，激发创造

精细样本复杂度下的 Kalman 滤波器学习

提出了一种新的 RHPG-KF 框架，可应用于任何线性动态系统，并且不需要先验知识或系统开环稳定，能够实现稳定滤波器的学习，同时具有省时，高效的特性。

Jan, 2023

从逐步优化策略梯度的角度重新审视 LQR 控制

本文探讨了离散时间线性二次调节器问题，并从后退视角政策梯度的角度重新审视它，介绍了 RHPG 用于控制应用的无模型学习框架，并提供了一种精细的样本复杂性分析方法，以学习在不知道稳定控制策略情况下的控制策略，并证明了 RHPG 在具有流线型分析的线性控制和估计中的普遍适用性。

Feb, 2023

策略梯度方法全局收敛到 (几乎) 局部最优策略

本研究从非凸优化的角度出发，提出一种新的 PG method 变体，利用随机滚动谱估计策略梯度，实现策略梯度的无偏估计，并在严格鞍点假设下，证明了算法的收敛性。最终，实验证明，通过重新设计奖赏函数，可以避免不良鞍点并获得更好的极限点。

Jun, 2019

有限时间内的带噪声线性二次调节器的策略梯度方法

本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Nov, 2020

自然策略梯度法结合基于 Hessian 辅助的动量方差减小的全局收敛性

本文介绍了一种新的自然策略梯度变体 NPG-HM，它利用 Hessian 辅助的动量技术用于方差减少，子问题则通过随机梯度下降方法求解。研究结果表明，NPG-HM 在一般 Fisher 非退化策略参数化下，能够以样本复杂度 O (ε^−2) 达到全局最后迭代 ε- 最优性，并且该方法在处理子问题时具有松弛的弱梯度优势特性和错误分解的便捷方式。此外，基于 Mujoco 环境的数值实验结果显示 NPG-HM 在性能上优于其他最先进的策略梯度方法。

Jan, 2024

基于动量的策略梯度算法的全局最优收敛性

本文研究应用动量项的随机策略梯度方法的全局收敛性，并展示了在 softmax 和非退化 Fisher 策略参数化中增加动量项可以提高 PG 方法的全局最优采样复杂度。此外，作者提供了分析随机 PG 方法全局收敛速率的通用框架。

Oct, 2021

一种混合随机策略梯度算法用于强化学习

提出了一种新的混合随机策略梯度估计器，并使用此估计器开发了一种新的混合随机策略梯度算法（ProxHSPGA）来解决复合策略优化问题，该算法可以处理策略参数上的约束或规则化，已经在强化学习中的一些示例上进行了评估和验证。

Mar, 2020

强化学习，游戏与控制中的政策梯度方法的全局收敛性

通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎，然而，由于值函数的非凸性，保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展，特别强调了其有关突出问题参数的有限时间收敛速度。

Oct, 2023

熵正则化强化学习的套娃政策梯度：收敛和全局最优性

本研究介绍并研究了一种名为 Matryoshka Policy Gradient（MPG）的新型策略梯度算法，可在最大熵强化学习环境下学习相互关联的有限任务，证明了其收敛性和全局最优性，适用于神经网络参数化的策略优化，以及在标准测试基准上的数值评估。

Mar, 2023

具备预测和转换成本的在线优化：快速算法和基本极限

本文研究了具有有限预测窗口和附加决策切换成本的在线优化问题。提出了两种基于梯度的在线算法：RHGD 和 RHAG。该文章报告了这些算法的动态遗憾的上限，并且发现我们的基于梯度的 RHAG 算法是一种接近最优的在线算法。

Jan, 2018