符号梯度下降的几何学
本文介绍了一种基于符号的压缩方法,即 Stochastic Sign Descent with Momentum(SSDM), 用于在分布式环境下解决符号 SGD 方法的收敛问题,同时可以保持 1 位压缩和小批量大小。
May, 2019
signSGD 可通过传输最小批次随机梯度符号来缓解学习分布在多个 worker 上时的通信效率问题,在实际应用中,其动量对应项能够匹配 Adam 算法在深层 Imagenet 模型上的精度和收敛速度。高斯定理证明 sign-based 优化方法对于通信效率和收敛速度的提高具有巨大潜力。
Feb, 2018
我们开发了一种梯度下降法的新次优性边界,该边界依赖于优化路径中的目标条件,而不是全局最坏情况下的常数。我们的证明关键在于方向平滑性,这是一种梯度变化的度量,我们用它来开发上界约束。通过求解隐式方程来最小化这些上界约束,我们展示了这些方程对于凸二次函数是容易解决的,并为两种传统步长提供了新的保证。对于一般函数,我们证明了 Polyak 步长和归一化梯度下降法尽管不使用方向平滑性的任何知识,但能够获得快速的路径相关性。逻辑回归上的实验证明,我们的收敛保证比基于 L 平滑性的传统理论更紧致。
Mar, 2024
本文研究梯度下降和随机梯度下降等算法在机器学习中的应用,分析了这些算法在非凸优化问题中收敛到驻点的情况,提出了变形的算法可以更高效地避免出现维数灾难,从而沟通了理论和实践。
Feb, 2019
基于信号的方法是一种能够在参数更新时只使用符号信息而实现稳健性能的方法。本文重新审视了基于信号的方法,并在更现实的一阶和二阶平滑性的假设下分析了其收敛性。基于我们的理论结果,我们对最近开发的 LION 算法的计算优势有了深入的了解。在分布式环境中,我们证明了当利用快速通信压缩传播协议时,这种非凸加速度随着节点数量的线性加速性仍然存在。我们的理论结果的新颖之处在于它们是在更弱的假设下得出的,从而扩展了基于信号算法可适用于更广泛问题范围的可证明应用性。
Oct, 2023
证明在 L - 平滑度条件下,随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差,且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.
Jul, 2019
本文介绍了 signSGD 方法及其收敛速率的改进,并引入了基于符号的随机方差缩减(SSVR)方法,通过引入方差缩减估计器来跟踪梯度并利用其符号进行更新;此外,还研究了分布式环境中的异构多数投票,引入了两种新算法以获得更好的收敛速率,通过数值实验验证了所提方法的有效性。
Jun, 2024
使用随机梯度下降和自适应梯度方法来训练深度神经网络,通过实验证明,尽管使用这些方法训练的模型的标准泛化性能之间的差异很小,但使用随机梯度下降来训练的模型在输入扰动下表现出更高的鲁棒性。同时研究了梯度下降和符号梯度下降在模拟自然信号的合成数据集上的学习动态,并发现使用梯度下降优化的模型对 l2 - 范数有界变化的鲁棒性与模型参数的权重范数成反比,解释了与自适应梯度方法训练的模型相比,使用随机梯度下降训练的神经网络对输入扰动有更好的鲁棒性。
Aug, 2023
我们深入探讨了随机梯度下降(SGD)的线性稳定性与锐利度之间的关系,并介绍了一种损失海森矩阵的一致性度量,用于判断 SGD 在最优点处的线性不稳定性。
Jan, 2024