策略梯度方差减少方法的收敛和样本效率
本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法,即 SVRPG,旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题,并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下,我们提供了 SVRPG 的收敛保证,收敛速率在增加批处理大小下呈线性。最后,我们建议实际的 SVRPG 变体,并在连续 MDP 上进行了实证评估。
Jun, 2018
本文介绍应用随机方差缩减梯度下降(SVRG)到无模型策略梯度中以显著提高其样本效率,并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中,我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。
Oct, 2017
该论文重新审视和改进策略梯度方法、自然策略梯度方法及其方差减少版本在一般平滑策略参数化下的收敛性,尤其是通过正定的策略的 Fisher 信息阵表明了一种最先进的方差减少策略梯度方法在策略参数化方面仍然存在函数逼近误差,而自然策略梯度方法具有更低的样本复杂度。
Nov, 2022
本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从 O(ε^-4)到 O(ε^-3)的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下,该算法在采样 O(ε^-2)次后享有 ε- 全局最优性,这改善了以前已经建立的 O(ε^-3)样本要求。
Dec, 2022
本文提出了一种最大熵策略优化框架,该框架明确地鼓励参数探索,并表明这个框架可以被归约为一个贝叶斯推理问题。然后,我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG),该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上,我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。
Apr, 2017
我们提供了一种更快的随机算法,用于在具有有限状态动作对、有界奖励和折扣因子的折扣马尔可夫决策过程中计算 ε- 最优策略。我们通过在采样设置和离线设置中提供不同的时间算法,进一步优化了之前的最先进技术。我们的方法基于先前的随机方差减少值迭代方法,通过引入新的方差减少采样过程并优化其迭代进展,能够在没有模型的情况下实现,并在模型自由和基于模型方法之间填补了样本复杂性差距。
May, 2024
通过重要性抽样的估计器取有限差分式,得出了基于策略梯度的有限差分及其方差的算法,提供了一种非常通用而灵活的双重稳健策略梯度估计器,并分析了其方差、与现有估计器的比较及其效果。
Oct, 2019
基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低,确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian-based 技术为基础,确保了预期后悔度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 数量级。这些结果显著提高了该问题的最新研究成果,其后悔度达到了 $\tilde {\mathcal {O}}(T^{3/4})$ 数量级。
Apr, 2024