基于动量的方差减少在非凸 SGD 中的应用
本篇论文探讨了基于 STORM 技术的自适应方差缩减方法。通过引入新设计的学习率策略,我们提出了一种新颖的自适应 STORM 方法,该方法对于非凸函数达到了最佳收敛率 O (T^-1/3),同时无需额外的 O (log T) 项。我们还将该技术扩展到随机组合优化中,获得了相同的最佳收敛率 O (T^-1/3)。此外,我们还研究了非凸有限和问题,并开发了另一种创新的自适应方差缩减方法,该方法实现了最佳收敛率 O (n^1/4T^-1/2),其中 n 表示组成函数的数量。通过各种任务的数值实验验证了我们方法的有效性。
Jun, 2024
本篇论文研究了非凸优化中高效到达稳定点的基本问题,并利用方差缩减技巧和适用于非凸优化的全新方差缩减分析提出一种首个非凸优化的一阶小批量随机算法,并在非凸损失函数和神经网络训练中表现出了有效性。
Mar, 2016
本研究分析了随机变量缩减梯度(SVRG)方法在非凸有限和问题中的应用,证明了其比随机梯度下降(SGD)和梯度下降(GD)更快收敛于固定点,并分析了一类 SVRG 在解决非凸问题上的线性收敛,同时研究了 mini-batch 变体的 SVRG 在并行设置中加速的外延。
Mar, 2016
本研究提出使用 momentum 相对于 normalized SGD 来解决 non-convex issues,若 objectives 带有有限的第二导数,采用带的动量公式提高了收敛速度,且适用于大规模任务如 ResNet-50 和 BERT pretraining。
Feb, 2020
本论文研究如何利用训练数据的邻域结构来共享和复用过去随机梯度的信息,从而在瞬态优化阶段中提供优势,并提供了一个称为记忆化算法的方差减少族的统一收敛分析。
Jun, 2015
本文提出一种基于随机零阶梯度与方差降低的高斯平滑的新型方法,用于优化非凸函数,特别是深度神经网络的黑盒攻击问题,并在实验中证明了其比现有的导数 - free 优化技术表现更优。
May, 2018
本文提出了一种基于 Nesterov 的动量和增长 epoch size 技术设计的快速随机方差缩减梯度(FSVRG)方法,其具有较低的复杂度和强的收敛性,可以直接解决具有非平滑组件函数的问题,并在解决 logistic 回归,岭回归,套索和 SVM 等各种机器学习问题中优于 Katysha 方法。
Mar, 2017
介绍一种使用卡尔曼过滤器进行随机优化的算法,并分析了其在非凸设置下收敛性的理论,并在神经网络和黑盒变分推理等许多机器学习领域上展示了其改进的性能。同时,介绍了一种分布式版本的算法,并将其扩展到 SGD 动量和 RMSProp。
Oct, 2018
CheapSVRG is proposed as a new stochastic variance-reduction optimization scheme which achieves a linear convergence rate through a surrogate computation while also balancing computational complexity.
Mar, 2016
本文提出了一种基于分布式随机算法的方差约简方法,以解决在多代理网络中进行大规模非凸有限和优化问题,提出了 GT-VR 算法,并证明了其收敛性和效率优于一些现有的一阶方法。
Jun, 2021