符号梯度下降的几何学

Feb, 2020

The Geometry of Sign Gradient Descent

Lukas Balles, Fabian Pedregosa, Nicolas Le Roux

TL;DR本文介绍了基于符号的优化方法在分布式优化中有良好的通信成本和在神经网络训练中具有出色的性能。同时探讨了分离平滑性与∞- 平滑性之间的联系，指出后者是更弱和更自然的假设。研究表明，在深度网络中，如果 Hession 矩阵在对角线方向上集中，并且其最大特征值远大于平均特征值，则符号法比梯度下降更优。

Abstract

sign-based optimization methods have become popular in machine learning due to their favorable communication cost in distributed optimization and their surprisingly good performance in →

sign-based optimization methods distributed optimization neural network training adaptive gradient methods hessian

发现论文，激发创造

随机符号下降方法：新算法和更好的理论

本文介绍了一种基于符号的压缩方法，即 Stochastic Sign Descent with Momentum（SSDM）, 用于在分布式环境下解决符号 SGD 方法的收敛问题，同时可以保持 1 位压缩和小批量大小。

May, 2019

signSGD：非凸问题的压缩优化

signSGD 可通过传输最小批次随机梯度符号来缓解学习分布在多个 worker 上时的通信效率问题，在实际应用中，其动量对应项能够匹配 Adam 算法在深层 Imagenet 模型上的精度和收敛速度。高斯定理证明 sign-based 优化方法对于通信效率和收敛速度的提高具有巨大潜力。

Feb, 2018

方向平滑性和梯度方法：收敛性和适应性

我们开发了一种梯度下降法的新次优性边界，该边界依赖于优化路径中的目标条件，而不是全局最坏情况下的常数。我们的证明关键在于方向平滑性，这是一种梯度变化的度量，我们用它来开发上界约束。通过求解隐式方程来最小化这些上界约束，我们展示了这些方程对于凸二次函数是容易解决的，并为两种传统步长提供了新的保证。对于一般函数，我们证明了 Polyak 步长和归一化梯度下降法尽管不使用方向平滑性的任何知识，但能够获得快速的路径相关性。逻辑回归上的实验证明，我们的收敛保证比基于 L 平滑性的传统理论更紧致。

Mar, 2024

非凸世界中 SGD 的更好理论

本篇论文使用类似于期望光滑性假设的新方法来研究随机梯度下降法在非凸优化中的收敛率，并在考虑多种采样策略和小批量大小的情况下，探讨有限和优化问题的影响。

Feb, 2020

机器学习的非凸优化：梯度、随机性和鞍点

本文研究梯度下降和随机梯度下降等算法在机器学习中的应用，分析了这些算法在非凸优化问题中收敛到驻点的情况，提出了变形的算法可以更高效地避免出现维数灾难，从而沟通了理论和实践。

Feb, 2019

重新思考 SIGN 训练：可证明的非凸加速，无需一阶和二阶梯度 Lipschitz

基于信号的方法是一种能够在参数更新时只使用符号信息而实现稳健性能的方法。本文重新审视了基于信号的方法，并在更现实的一阶和二阶平滑性的假设下分析了其收敛性。基于我们的理论结果，我们对最近开发的 LION 算法的计算优势有了深入的了解。在分布式环境中，我们证明了当利用快速通信压缩传播协议时，这种非凸加速度随着节点数量的线性加速性仍然存在。我们的理论结果的新颖之处在于它们是在更弱的假设下得出的，从而扩展了基于信号算法可适用于更广泛问题范围的可证明应用性。

Oct, 2023

（随机）梯度方法的统一最优分析

证明在 L - 平滑度条件下，随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差，且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.

Jul, 2019

高效的基于符号的优化：通过方差减少加速收敛

本文介绍了 signSGD 方法及其收敛速率的改进，并引入了基于符号的随机方差缩减（SSVR）方法，通过引入方差缩减估计器来跟踪梯度并利用其符号进行更新；此外，还研究了分布式环境中的异构多数投票，引入了两种新算法以获得更好的收敛速率，通过数值实验验证了所提方法的有效性。

Jun, 2024

理解随机梯度下降和自适应梯度方法之间的鲁棒性差异

使用随机梯度下降和自适应梯度方法来训练深度神经网络，通过实验证明，尽管使用这些方法训练的模型的标准泛化性能之间的差异很小，但使用随机梯度下降来训练的模型在输入扰动下表现出更高的鲁棒性。同时研究了梯度下降和符号梯度下降在模拟自然信号的合成数据集上的学习动态，并发现使用梯度下降优化的模型对 l2 - 范数有界变化的鲁棒性与模型参数的权重范数成反比，解释了与自适应梯度方法训练的模型相比，使用随机梯度下降训练的神经网络对输入扰动有更好的鲁棒性。

Aug, 2023

使用损失面几何精确刻画 SGD 的稳定性

我们深入探讨了随机梯度下降（SGD）的线性稳定性与锐利度之间的关系，并介绍了一种损失海森矩阵的一致性度量，用于判断 SGD 在最优点处的线性不稳定性。

Jan, 2024