本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
该研究针对 Markov 决策过程中的离策略策略优化问题,开发了一种新颖的离策略策略梯度方法,解决了基于之前行为策略采集数据的状态分布与学习策略下的状态分布不匹配的问题,并提供了该方法的理论收敛保证和实验验证。
Apr, 2019
研究了 RL 中的 policy gradient methods,建立了 REINFORCE 算法的全局收敛理论,围绕梯度估计和采样效率等方面进行了研究。
Oct, 2020
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
本文从深度强化学习的角度重新审视了折扣式情节马尔科夫决策过程(MDP)中政策梯度的估计偏差,重点讨论了状态分布漂移引起的偏差,提出了 3 种减少偏差的方法(小学习率;基于自适应学习率的优化器,KL 正则化),并在连续控制任务上展示了实验结果。
Jan, 2023
本文提出一种无需特定抽样策略即可从起始状态重构策略梯度的新方法。通过使用来自离线数据流的梯度评论家的时序差异更新,开发了首个可以无模型地避开分布转移问题的估计器。实验证明,其具有良好的偏差 - 方差平衡和性能表现。
Feb, 2022
本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法,在不需要参数假设的情况下实现了可行均方误差的渐进下界,并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后,我们证明了当我们朝着新的策略梯度方向迈出步伐时,我们接近稳态点的速度是有保证的。
Feb, 2020
本文提出了一种政策梯度方法,避免引入探索性噪声并在确定性景观上执行政策搜索,使用 Wasserstein-based 二次模型进行确定性政策正则化,适用于机器人控制环境。
May, 2022
这篇论文介绍了一种结合动态规划和策略梯度的方法,称为动态策略梯度,其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析,我们发现动态策略梯度训练更好地利用了有限时间问题的结构,这反映在改进的收敛界限上。
Oct, 2023
本文提出一种新颖的强化学习算法,利用双重变量不等式技术,通过辅助最优化问题得到二阶鞍点,无需使用重要性加权,实现了从任意行为策略上学习并优化目标策略。
Dec, 2019