Softmax Policy Gradient 方法可能需要指数时间才能收敛
本文研究应用动量项的随机策略梯度方法的全局收敛性,并展示了在 softmax 和非退化 Fisher 策略参数化中增加动量项可以提高 PG 方法的全局最优采样复杂度。此外,作者提供了分析随机 PG 方法全局收敛速率的通用框架。
Oct, 2021
我们考虑用于赌博机和表格马尔可夫决策过程(MDP)的(随机)softmax 策略梯度(PG)方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛,而不需要设置算法参数。为了解决这个问题,我们借鉴了优化文献的思路,在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。
May, 2024
本文研究使用策略梯度方法解决马尔可夫势博弈 (包括完全合作的情况) 的收敛性,在策略参数化方面,包括 tabular 和神经网络等。通过引入 POA 和平滑概念,给出了 POA 边界,并通过实验比较了不同方法的收敛速度和 POA。
Jun, 2022
为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证,并专注于受 softmax 参数化限制的比例调节的策略梯度算法,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化 MDP 的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。
Jul, 2020
这篇论文介绍了一种结合动态规划和策略梯度的方法,称为动态策略梯度,其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析,我们发现动态策略梯度训练更好地利用了有限时间问题的结构,这反映在改进的收敛界限上。
Oct, 2023
本研究从非凸优化的角度出发,提出一种新的 PG method 变体,利用随机滚动谱估计策略梯度,实现策略梯度的无偏估计,并在严格鞍点假设下,证明了算法的收敛性。最终,实验证明,通过重新设计奖赏函数,可以避免不良鞍点并获得更好的极限点。
Jun, 2019
研究了采用策略梯度法在表格设置下的优化问题,分析并证明了使用 softmax 参数化的策略梯度法具有 O (1/t) 的收敛速率,熵正则化策略梯度法可以以 O (e^{-c * t}) 的线性收敛速度收敛到最优策略,提高了优化速度。通过非均匀 L {} ojasiewicz 度概念解释了该方法的有效性,并在理论上支持了现有的经验研究。
May, 2020
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019