政策梯度方法的基本分析
该研究针对 softmax policy gradient 方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究,给出了反例并提示了在加速 PG 方法中调整更新规则或强制执行适当规则化的必要性。
Feb, 2021
这篇论文介绍了一种结合动态规划和策略梯度的方法,称为动态策略梯度,其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析,我们发现动态策略梯度训练更好地利用了有限时间问题的结构,这反映在改进的收敛界限上。
Oct, 2023
研究了采用策略梯度法在表格设置下的优化问题,分析并证明了使用 softmax 参数化的策略梯度法具有 O (1/t) 的收敛速率,熵正则化策略梯度法可以以 O (e^{-c * t}) 的线性收敛速度收敛到最优策略,提高了优化速度。通过非均匀 L {} ojasiewicz 度概念解释了该方法的有效性,并在理论上支持了现有的经验研究。
May, 2020
为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证,并专注于受 softmax 参数化限制的比例调节的策略梯度算法,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化 MDP 的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。
Jul, 2020
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影 Q - 下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。
Jun, 2022
本文重新审视了策略梯度法在有限状态和动作 MDPs 中的有限时间分析,并基于与策略迭代的关系展示出许多策略梯度法变体使用大步长成功并达到线性收敛率。
Jul, 2020
我们考虑用于赌博机和表格马尔可夫决策过程(MDP)的(随机)softmax 策略梯度(PG)方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛,而不需要设置算法参数。为了解决这个问题,我们借鉴了优化文献的思路,在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。
May, 2024