自然策略梯度法在对数-线性策略下的线性收敛
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了$ extit{非渐进}$收敛保证,并专注于受softmax参数化限制的比例调节的策略梯度算法, 重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。
Jul, 2020
本文重新审视了策略梯度法在有限状态和动作MDPs中的有限时间分析,并基于与策略迭代的关系展示出许多策略梯度法变体使用大步长成功并达到线性收敛率。
Jul, 2020
本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了PMD方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度,并展示了此正则化的应用性。
Jan, 2021
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD),用于解决具有有限状态和动作空间的折扣、无限时间MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同Bregman散度之间进行扩展,以及是一些常见Bregman散度的有限时间精确收敛。
Jan, 2022
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始-对偶方法来解决Constrained Markov决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。
Jun, 2022
研究自然政策梯度算法在无限时间段折扣马尔可夫决策过程中的收敛速度,其中 Q-value 函数能够被已知特征函数的线性组合近似到偏差误差内,且算法具有相同的线性收敛保证,依赖于估计误差、偏差误差和特征协方差矩阵的条件数。
Sep, 2022
本研究解决了强化学习中缺乏最佳性原则度量的问题,通过发展一种简单可计算的间隙函数,提供了最佳性间隙的上下界。研究表明,基本的政策镜像下降法在确定性和随机性设置下表现出快速的无分布收敛,这一新结果有助于在强多项式时间内解决未正则化的马尔可夫决策过程,并在运行随机政策镜像下降时无需额外样本即可获得准确性估计。
Sep, 2024