该研究桥接了基于模型和基于非模型策略梯度方法之间的差距,表明无模型的策略梯度方法全局收敛到最优解,并且在样本和计算复杂度方面效率很高。
Jan, 2018
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。
Oct, 2023
本研究从非凸优化的角度出发,提出一种新的 PG method 变体,利用随机滚动谱估计策略梯度,实现策略梯度的无偏估计,并在严格鞍点假设下,证明了算法的收敛性。最终,实验证明,通过重新设计奖赏函数,可以避免不良鞍点并获得更好的极限点。
Jun, 2019
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
静态输出反馈控制中政策梯度方法在离散时间线性时不变系统中的优化性质的分析
本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究,经由分析线性二次博弈的梯度播放,得到该算法并不存在全局收敛到 Nash 平衡点的保证,且通过实验发现此类情况并不少见。
Jul, 2019
强化学习问题的非凸目标函数使得政策梯度算法收敛到一阶稳定点,但应用于无限时限贴现设置的实际实现包括 Monte-Carlo 方法和演员 - 评论家方法,在使用有偏梯度估计器的梯度下降更新时,已有的结果只考虑了无偏梯度估计器。我们通过利用非凸优化的证明技术,对有偏的政策梯度算法收敛到二阶稳定点的初步结果进行了展示,并旨在为演员 - 评论家算法提供首个有限时间的二阶收敛性分析。
Nov, 2023
通过利用底层 MDP 的结构,引入了一种新的梯度估计器家族 ——SAGEs,它们可以在无需依赖于值函数估计的情况下估计策略梯度,相较于经典的 actor-critic 等策略梯度方法具有更快的收敛速度,并通过数值比较证明了其优越性。
Dec, 2023
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
May, 2024
研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数,可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。
May, 2019