策略梯度估计的随机方差缩减

Oct, 2017

Stochastic Variance Reduction for Policy Gradient Estimation

Tianbing Xu, Qiang Liu, Jian Peng

TL;DR本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Abstract

Recent advances in policy gradient methods and deep learning have demonstrated their applicability for complex reinforcement learning prob

policy gradient methods deep learning reinforcement learning stochastic variance reduced gradient descent sample efficiency

发现论文，激发创造

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018

少量梯度评估的政策评估 SVRG

本文提出了 Stochastic Variance-Reduced Gradient 方法的两种变体应用于 Policy Evaluation，可以显著减少梯度计算次数，同时保持线性收敛速度，理论分析表明这些方法不需要在每次迭代中使用整个数据集，仅需用于线性函数逼近问题，实验结果展示了这种方法带来的大量计算节省。

Jun, 2019

具有递归方差降低的高效策略梯度方法

该研究旨在提高强化学习中采样效率，通过提出一种名为 SRVR-PG 的新型策略梯度算法，并对其进行了数值实验以验证其性能。

Sep, 2019

随机梯度下降中方差与复杂度的权衡

CheapSVRG is proposed as a new stochastic variance-reduction optimization scheme which achieves a linear convergence rate through a surrogate computation while also balancing computational complexity.

Mar, 2016

随机方差减小策略梯度的收敛性改进分析

研究改进了 SVRPG 方法的收敛性和采样复杂度问题，并通过理论分析和实验验证了重要性采样权重和批量大小参数的影响

May, 2019

策略梯度方差减少方法的收敛和样本效率

本研究提出一种简单且有效的梯度截断机制，可用于加速政策梯度算法的变化减少技术，进而设计了一种名为 TSIVR-PG 的新方法，它不仅能够最大化累积奖励总和，还能在政策的长期访问分布上最大化一般效用函数，并对 TSIVR-PG 进行了理论分析。

Feb, 2021

策略评估的随机方差缩减方法

本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Feb, 2017

斯坦变分策略梯度

本文提出了一种最大熵策略优化框架，该框架明确地鼓励参数探索，并表明这个框架可以被归约为一个贝叶斯推理问题。然后，我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG)，该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上，我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。

Apr, 2017

非凸优化的随机方差缩减

本研究分析了随机变量缩减梯度（SVRG）方法在非凸有限和问题中的应用，证明了其比随机梯度下降（SGD）和梯度下降（GD）更快收敛于固定点，并分析了一类 SVRG 在解决非凸问题上的线性收敛，同时研究了 mini-batch 变体的 SVRG 在并行设置中加速的外延。

Mar, 2016

VR-SGD: 一种简单的随机方差缩减机器学习方法

本文提出了一种名为 VR-SGD 的变体随机梯度下降法，其使用平均值和上一个时期的最后迭代作为两个向量，能够直接解决非光滑和 / 或非强凸问题，并能够使用更大的学习率。此方法在解决各种机器学习问题，如凸和非凸的经验风险最小化以及特征值计算等方面，具有更快的收敛速度。

Feb, 2018