一个系数让 SVRG 生效

Nov, 2023

A Coefficient Makes SVRG Effective

Yida Yin, Zhiqiu Xu, Zhiyuan Li, Trevor Darrell, Zhuang Liu

TL;DR通过引入一个乘法系数来控制 Stochastic Variance Reduced Gradient（SVRG）的强度，并通过线性衰减调整该系数，我们展示了 SVRG 优化神经网络的潜力，并发现对于更深的网络，SVRG 的减弱方差的项的强度应该更小，并且应该随着训练的进行而减小。我们的方法命名为 alpha-SVRG，并通过在不同架构和图像分类数据集上的实验证明 alpha-SVRG 相对于基准方法和标准 SVRG 在训练损失方面能够更好地优化神经网络。我们希望我们的发现能够鼓励进一步探索深度学习中的方差减少技术。

Abstract

stochastic variance reduced gradient (svrg), introduced by Johnson & Zhang (2013), is a theoretically compelling optimization method. Howe

stochastic variance reduced gradient svrg optimization method deep learning neural networks

发现论文，激发创造

随机梯度下降中方差与复杂度的权衡

CheapSVRG is proposed as a new stochastic variance-reduction optimization scheme which achieves a linear convergence rate through a surrogate computation while also balancing computational complexity.

Mar, 2016

少量梯度评估的政策评估 SVRG

本文提出了 Stochastic Variance-Reduced Gradient 方法的两种变体应用于 Policy Evaluation，可以显著减少梯度计算次数，同时保持线性收敛速度，理论分析表明这些方法不需要在每次迭代中使用整个数据集，仅需用于线性函数逼近问题，实验结果展示了这种方法带来的大量计算节省。

Jun, 2019

VR-SGD: 一种简单的随机方差缩减机器学习方法

本文提出了一种名为 VR-SGD 的变体随机梯度下降法，其使用平均值和上一个时期的最后迭代作为两个向量，能够直接解决非光滑和 / 或非强凸问题，并能够使用更大的学习率。此方法在解决各种机器学习问题，如凸和非凸的经验风险最小化以及特征值计算等方面，具有更快的收敛速度。

Feb, 2018

实用 SVRG：停止浪费我的梯度

本文介绍了多种提高随机方差减小梯度方法性能的策略，包括使用递减误差控制变量、使用递增批处理策略以及利用支撑向量减少计算。此外，本文还考虑了不同小批量选择策略和该方法的泛化误差问题。

Nov, 2015

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

非凸优化的随机方差缩减

本研究分析了随机变量缩减梯度（SVRG）方法在非凸有限和问题中的应用，证明了其比随机梯度下降（SGD）和梯度下降（GD）更快收敛于固定点，并分析了一类 SVRG 在解决非凸问题上的线性收敛，同时研究了 mini-batch 变体的 SVRG 在并行设置中加速的外延。

Mar, 2016

带有邻居的方差减少随机梯度下降

本论文研究如何利用训练数据的邻域结构来共享和复用过去随机梯度的信息，从而在瞬态优化阶段中提供优势，并提供了一个称为记忆化算法的方差减少族的统一收敛分析。

Jun, 2015

ASVRG: 加速近端 SVRG

本论文提出了一种加速的近端随机方差减少梯度（ASVRG）方法，它具有一种简单而有效的动量加速技巧，并证明在强凸和非强凸目标函数上都可以实现最佳已知的 oracle 复杂度。同时将 ASVRG 扩展到 mini-batch 基础上，并证明了理论结果，表明 ASVRG 的性能与现有的随机方法相当甚至更好。

Oct, 2018

深度学习中方差缩减优化算法的无效性

本文探讨了随机方差缩小技术在优化中的应用，研究发现在训练现代深度神经网络中，由于遇到难解的非凸优化问题，直接应用 SVRG 技术等方法效果不佳。

Dec, 2018

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018