随机符号下降方法：新算法和更好的理论

ICMLMay, 2019

随机符号下降方法：新算法和更好的理论

Stochastic Sign Descent Methods: New Algorithms and Better Theory

Mher Safaryan, Peter Richtárik

TL;DR本文介绍了一种基于符号的压缩方法，即 Stochastic Sign Descent with Momentum（SSDM）, 用于在分布式环境下解决符号 SGD 方法的收敛问题，同时可以保持 1 位压缩和小批量大小。

Abstract

Various gradient compression schemes have been proposed to mitigate the communication cost in distributed training of large scale machine learning models. →

gradient compression sign-based methods distributed training non-convex optimization stochastic sign descent with momentum

发现论文，激发创造

signSGD：非凸问题的压缩优化

signSGD 可通过传输最小批次随机梯度符号来缓解学习分布在多个 worker 上时的通信效率问题，在实际应用中，其动量对应项能够匹配 Adam 算法在深层 Imagenet 模型上的精度和收敛速度。高斯定理证明 sign-based 优化方法对于通信效率和收敛速度的提高具有巨大潜力。

Feb, 2018

符号梯度下降的几何学

本文介绍了基于符号的优化方法在分布式优化中有良好的通信成本和在神经网络训练中具有出色的性能。同时探讨了分离平滑性与∞- 平滑性之间的联系，指出后者是更弱和更自然的假设。研究表明，在深度网络中，如果 Hession 矩阵在对角线方向上集中，并且其最大特征值远大于平均特征值，则符号法比梯度下降更优。

Feb, 2020

高效的基于符号的优化：通过方差减少加速收敛

本文介绍了 signSGD 方法及其收敛速率的改进，并引入了基于符号的随机方差缩减（SSVR）方法，通过引入方差缩减估计器来跟踪梯度并利用其符号进行更新；此外，还研究了分布式环境中的异构多数投票，引入了两种新算法以获得更好的收敛速率，通过数值实验验证了所提方法的有效性。

Jun, 2024

异构数据的分布式训练：连接中位数和基于平均值的算法

本文研究介绍了两种分布式非凸优化算法：signSGD 和 medianSGD，并发现它们在数据异构的情况下是不收敛的。作者提出了一种梯度校正机制来消除梯度的平均值和中位数之间的差异，该方法保留了这些方法的良好性质，并实现了全局收敛。此外，该文中所提的梯度校正技术在其他估计平均值的场合也有独立的应用价值。

Jun, 2019

自适应 SGD 分布式随机优化

本文提出了一种高效的分布式随机优化方法，通过结合适应性与方差约减技术，从而实现任何串行在线学习算法的并行计算，能够在不需要光滑参数的先验知识的情况下实现最优收敛速率，同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。

Feb, 2018

分布式非凸优化中通信高效动量随机梯度下降的线性加速分析

本文研究了分布式优化方法在深度学习中的应用，发现分布式动量随机梯度下降在性能、通讯效率方面存在一定优势，并证明其拥有与分布式随机梯度下降相同的线性加速性质。

May, 2019

非凸随机优化的一比特近端算法

本文介绍了一种无需正负数计算和传输的随机梯度下降方法，使用了压缩过的一位元梯度，通过一种基于随机梯度下降的近端梯度方法来证明该方法在非凸优化方面的理论收敛性，实验证明这种可以压缩的方法可以达到未压缩方法相近的收敛速度。

Jul, 2018

非凸优化的基于符号随机重排算法的收敛性

signSGD 与随机重排（SignRR）在非凸优化中具有相同的收敛速率，我们还提出了利用减小方差的梯度和动量更新的 SignRVR 和 SignRVM 算法，且将这些算法扩展到数据在不同机器上分布的情况。

Oct, 2023

具有理论保证的联邦学习随机符号 SGD

本研究提出一种基于 SIGNSGD 的方法：Stochastic-Sign SGD，它利用新颖的随机符号梯度压缩器，在分布式学习中具有收敛性、通信效率、差分隐私以及拜占庭容错等特性，并在 MNIST 和 CIFAR-10 数据集下的深度神经网络上进行了广泛的实验验证。

Feb, 2020

具有误差反馈的通信高效分布式块动量 SGD

提出了一种基于 Nesterov 的动量的分布式压缩的 SGD 方法，通过两种方式压缩梯度并将梯度分块，每个梯度块都以 1 位格式进行压缩和传输，并实现了近 32 倍的通信降低，实验表明该方法与精度相同的动量 SGD 收敛速度相同，并在分布式 ResNet 训练中达到与全精度梯度动量 SGD 相同的测试精度，而时间缩短了 46％。

May, 2019