自然策略梯度法在对数线性策略参数化下的线性收敛
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分(TD)学习方法,并针对几个基于梯度的TD算法提出了一组收敛性结果。
Dec, 2017
研究了采用策略梯度法在表格设置下的优化问题,分析并证明了使用softmax参数化的策略梯度法具有O(1/t)的收敛速率,熵正则化策略梯度法可以以O(e^{-c * t})的线性收敛速度收敛到最优策略,提高了优化速度。通过非均匀L{}ojasiewicz度概念解释了该方法的有效性,并在理论上支持了现有的经验研究。
May, 2020
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD),用于解决具有有限状态和动作空间的折扣、无限时间MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同Bregman散度之间进行扩展,以及是一些常见Bregman散度的有限时间精确收敛。
Jan, 2022
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始-对偶方法来解决Constrained Markov决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。
Jun, 2022
本研究考虑了无限期折扣马尔可夫决策过程,并研究了自然策略梯度和Q-NPG方法在对数线性策略类下的收敛速度及样本复杂性,其在非自适应几何递增步长下可以实现线性收敛率和样本复杂度的约为O(1/epsilon^2)。
Oct, 2022
我们研究了具有Polish状态和动作空间的无限时段熵正则化马尔可夫决策过程的Fisher-Rao策略梯度流的全球收敛性。该流是策略镜像下降方法的连续时间模拟。我们建立了梯度流的全球适定性,并证明其指数级收敛到最优策略。此外,我们证明了该流在梯度评估方面的稳定性,从而揭示了以对数线性策略参数化的自然策略梯度流的性能。为了克服客观函数的非凸性和由熵正则化引起的不连续性引起的挑战,我们利用了性能差分引理和梯度与镜像下降流之间的对偶关系。
Oct, 2023
本研究解决了强化学习中缺乏最佳性原则度量的问题,通过发展一种简单可计算的间隙函数,提供了最佳性间隙的上下界。研究表明,基本的政策镜像下降法在确定性和随机性设置下表现出快速的无分布收敛,这一新结果有助于在强多项式时间内解决未正则化的马尔可夫决策过程,并在运行随机政策镜像下降时无需额外样本即可获得准确性估计。
Sep, 2024