基于偏差梯度估计的分布式动量方法
本文研究了几种被重量球动量丰富的随机优化算法,证明了它们的全局非渐进线性收敛速率,并在稀疏数据环境下提出了随机动量,证明了它对于带有动量的算法有更好的整体复杂度。
Dec, 2017
提出了一种名为DANA的技术,旨在解决分布式异步训练的梯度走样问题,可以加速深度神经网络的训练过程且不影响最终精度。该方法在CIFAR和ImageNet数据集上表现出比现有方法更好的性能。
Jul, 2019
本文介绍了一种随机子梯度方法,该方法结合了动量项,能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数,实现快速收敛。
Feb, 2020
分析了带偏差随机梯度方法的复杂性,特别是在非凸函数上的收敛性及更好的速率,探究了偏差大小对达到的准确性和收敛速率的影响,阐述了偏差梯度在分布式学习和无导数优化中的应用广泛性。
Jul, 2020
本文提出了一种结合了shuffling策略和momentum技术的新算法SMG,用于解决非凸有限和优化问题,其达到了最先进的收敛速度,同时提出另一新算法与现有的momentum算法具有相同的收敛速度,在标准的$L$-smoothness和有界变差下具有良好的表现。
Nov, 2020
本文提出了一种修剪随机梯度(子)梯度法(SGD)的收敛性研究,特别是对于具有快速增长次梯度的非光滑凸函数。研究表明,修剪对SGD的稳定性有益,并且修剪SGD算法在许多情况下具有有限的收敛速率。同时,我们还研究了带有动量的修剪方法的收敛性,并展示了新的Lyapunov分析证明了该方法在这类问题中具有最佳的收敛速率。数值结果验证了理论结果。
Feb, 2021
提出了 DM-GDA 方法,使用动量法更新变量和估计随机梯度,并证明在非凸情况下找到具有稳定解的解决方案的梯度复杂度接近最优,可用于在网络上进行分布式的 Nonconvex-PL 随机极小化问题的优化。
Apr, 2023
本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度,并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。
May, 2023
本研究设计了 Clip21,这是第一个证明有效并实用的反馈机制,用于解决梯度剪切在分布式设置中引起的收敛性问题,并证明了我们的方法与在平滑非凸区域内的分布式梯度下降相同的收敛速度。
May, 2023