政策梯度方法的强多项式时间和验证分析
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分(TD)学习方法,并针对几个基于梯度的TD算法提出了一组收敛性结果。
Dec, 2017
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD),用于解决具有有限状态和动作空间的折扣、无限时间MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同Bregman散度之间进行扩展,以及是一些常见Bregman散度的有限时间精确收敛。
Jan, 2022
研究如何解决具有不确定转移内核的折现,有限状态,有限行动空间MDP的强鲁棒性问题,旨在寻找一个抵抗传递不确定性的最佳策略。与标准MDP规划相比,本文提出了一个名为RPMD的策略型一阶方法,并对于两种递增步长的情形,建立了寻找ε-最优策略的O(log(1/ε))和O(1/ε)迭代复杂度。本文还提出了一种名为SRPMD的随机变量。
Sep, 2022
研究自然政策梯度算法在无限时间段折扣马尔可夫决策过程中的收敛速度,其中 Q-value 函数能够被已知特征函数的线性组合近似到偏差误差内,且算法具有相同的线性收敛保证,依赖于估计误差、偏差误差和特征协方差矩阵的条件数。
Sep, 2022
本研究考虑了无限期折扣马尔可夫决策过程,并研究了自然策略梯度和Q-NPG方法在对数线性策略类下的收敛速度及样本复杂性,其在非自适应几何递增步长下可以实现线性收敛率和样本复杂度的约为O(1/epsilon^2)。
Oct, 2022
本文所提出的新算法不依赖于探索策略,通过引入两个新的基于策略的评估算符和对SPMD算法的新颖分析,实现了在线策略梯度方法的样本复杂度的近似上界,无需显式探索,可以避免在寻找最优策略时反复执行潜在的高风险动作,具有更强的收敛性能。
Mar, 2023
我们研究了具有Polish状态和动作空间的无限时段熵正则化马尔可夫决策过程的Fisher-Rao策略梯度流的全球收敛性。该流是策略镜像下降方法的连续时间模拟。我们建立了梯度流的全球适定性,并证明其指数级收敛到最优策略。此外,我们证明了该流在梯度评估方面的稳定性,从而揭示了以对数线性策略参数化的自然策略梯度流的性能。为了克服客观函数的非凸性和由熵正则化引起的不连续性引起的挑战,我们利用了性能差分引理和梯度与镜像下降流之间的对偶关系。
Oct, 2023