策略梯度方法全局收敛到 (几乎) 局部最优策略
本文研究应用动量项的随机策略梯度方法的全局收敛性,并展示了在 softmax 和非退化 Fisher 策略参数化中增加动量项可以提高 PG 方法的全局最优采样复杂度。此外,作者提供了分析随机 PG 方法全局收敛速率的通用框架。
Oct, 2021
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。
Oct, 2023
提出了回溯视角策略梯度(RHPG)算法,是第一个在学习最优线性估计器设计(即 Kalman 滤波器)方面具有可证明的全局收敛性的 PG 算法。这项工作旨在通过在算法设计和理论分析中利用经典控制理论,开发具有性能保证的强化学习算法,同时验证了该算法的有效性。
Sep, 2023
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
May, 2024
该研究针对 softmax policy gradient 方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究,给出了反例并提示了在加速 PG 方法中调整更新规则或强制执行适当规则化的必要性。
Feb, 2021
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
本文介绍了利用 Lagrangian 方法将约束马尔可夫决策过程转化为有约束鞍点问题的优化方法,提出了两种单时间尺度的基于原始对偶算法的策略算法,可以使策略迭代收敛到一个最优受限策略。其中一个采用了一种正则化策略梯度算法,另一个采用了一种乐观的策略梯度算法。这是约束 MDPs 单时间尺度算法中第一个非渐进策略最终迭代收敛结果。
Jun, 2023
该研究探讨了结构性特征对于使得 Policy gradients methods 有权达到最优点的影响,并且当这些条件变强时,可以证明其满足 Polyak-lojasiewicz 条件从而有较快的收敛速度。
Jun, 2019