基于动量的方差减少在非凸 SGD 中的应用

May, 2019

基于动量的方差减少在非凸 SGD 中的应用

Momentum-Based Variance Reduction in Non-Convex SGD

Ashok Cutkosky, Francesco Orabona

TL;DRSTORM 是一种新的算法，可以用于非凸优化中的方差缩减技术，其不需要任何 batch，具备自适应学习率，相对其他技术，具备更简单易用的优点。

Abstract

variance reduction has emerged in recent years as a strong competitor to stochastic gradient descent in non-convex problems, providing the first algorithms to improve upon the converge rate of stochastic gradient descent for finding first-order critical points. However, →

variance reduction storm non-convex optimization adaptive learning rates momentum

发现论文，激发创造

自适应方差约减在较弱假设下随机优化中的应用

本篇论文探讨了基于 STORM 技术的自适应方差缩减方法。通过引入新设计的学习率策略，我们提出了一种新颖的自适应 STORM 方法，该方法对于非凸函数达到了最佳收敛率 O (T^-1/3)，同时无需额外的 O (log T) 项。我们还将该技术扩展到随机组合优化中，获得了相同的最佳收敛率 O (T^-1/3)。此外，我们还研究了非凸有限和问题，并开发了另一种创新的自适应方差缩减方法，该方法实现了最佳收敛率 O (n^1/4T^-1/2)，其中 n 表示组成函数的数量。通过各种任务的数值实验验证了我们方法的有效性。

Jun, 2024

减小方差以实现更快的非凸优化

本篇论文研究了非凸优化中高效到达稳定点的基本问题，并利用方差缩减技巧和适用于非凸优化的全新方差缩减分析提出一种首个非凸优化的一阶小批量随机算法，并在非凸损失函数和神经网络训练中表现出了有效性。

Mar, 2016

非凸优化的随机方差缩减

本研究分析了随机变量缩减梯度（SVRG）方法在非凸有限和问题中的应用，证明了其比随机梯度下降（SGD）和梯度下降（GD）更快收敛于固定点，并分析了一类 SVRG 在解决非凸问题上的线性收敛，同时研究了 mini-batch 变体的 SVRG 在并行设置中加速的外延。

Mar, 2016

动量算法改进归一化随机梯度下降

本研究提出使用 momentum 相对于 normalized SGD 来解决 non-convex issues，若 objectives 带有有限的第二导数，采用带的动量公式提高了收敛速度，且适用于大规模任务如 ResNet-50 和 BERT pretraining。

Feb, 2020

带有邻居的方差减少随机梯度下降

本论文研究如何利用训练数据的邻域结构来共享和复用过去随机梯度的信息，从而在瞬态优化阶段中提供优势，并提供了一个称为记忆化算法的方差减少族的统一收敛分析。

Jun, 2015

通过方差减少方法的随机零阶优化

本文提出一种基于随机零阶梯度与方差降低的高斯平滑的新型方法，用于优化非凸函数，特别是深度神经网络的黑盒攻击问题，并在实验中证明了其比现有的导数 - free 优化技术表现更优。

May, 2018

机器学习中具有动量加速作用的快速随机方差减少梯度方法

本文提出了一种基于 Nesterov 的动量和增长 epoch size 技术设计的快速随机方差缩减梯度（FSVRG）方法，其具有较低的复杂度和强的收敛性，可以直接解决具有非平滑组件函数的问题，并在解决 logistic 回归，岭回归，套索和 SVM 等各种机器学习问题中优于 Katysha 方法。

Mar, 2017

Kalman 梯度下降：随机优化中自适应方差减小

介绍一种使用卡尔曼过滤器进行随机优化的算法，并分析了其在非凸设置下收敛性的理论，并在神经网络和黑盒变分推理等许多机器学习领域上展示了其改进的性能。同时，介绍了一种分布式版本的算法，并将其扩展到 SGD 动量和 RMSProp。

Oct, 2018

随机梯度下降中方差与复杂度的权衡

CheapSVRG is proposed as a new stochastic variance-reduction optimization scheme which achieves a linear convergence rate through a surrogate computation while also balancing computational complexity.

Mar, 2016

分布式随机梯度跟踪算法降低方差用于非凸优化

本文提出了一种基于分布式随机算法的方差约简方法，以解决在多代理网络中进行大规模非凸有限和优化问题，提出了 GT-VR 算法，并证明了其收敛性和效率优于一些现有的一阶方法。

Jun, 2021