signSGD:非凸问题的压缩优化
本文介绍了一种基于符号的压缩方法,即 Stochastic Sign Descent with Momentum(SSDM), 用于在分布式环境下解决符号 SGD 方法的收敛问题,同时可以保持 1 位压缩和小批量大小。
May, 2019
提出了一种基于 Nesterov 的动量的分布式压缩的 SGD 方法,通过两种方式压缩梯度并将梯度分块,每个梯度块都以 1 位格式进行压缩和传输,并实现了近 32 倍的通信降低,实验表明该方法与精度相同的动量 SGD 收敛速度相同,并在分布式 ResNet 训练中达到与全精度梯度动量 SGD 相同的测试精度,而时间缩短了 46%。
May, 2019
本文介绍了 signSGD 方法及其收敛速率的改进,并引入了基于符号的随机方差缩减(SSVR)方法,通过引入方差缩减估计器来跟踪梯度并利用其符号进行更新;此外,还研究了分布式环境中的异构多数投票,引入了两种新算法以获得更好的收敛速率,通过数值实验验证了所提方法的有效性。
Jun, 2024
本文介绍了基于符号的优化方法在分布式优化中有良好的通信成本和在神经网络训练中具有出色的性能。同时探讨了分离平滑性与∞- 平滑性之间的联系,指出后者是更弱和更自然的假设。研究表明,在深度网络中,如果 Hession 矩阵在对角线方向上集中,并且其最大特征值远大于平均特征值,则符号法比梯度下降更优。
Feb, 2020
本文介绍了一种无需正负数计算和传输的随机梯度下降方法,使用了压缩过的一位元梯度,通过一种基于随机梯度下降的近端梯度方法来证明该方法在非凸优化方面的理论收敛性,实验证明这种可以压缩的方法可以达到未压缩方法相近的收敛速度。
Jul, 2018
本文研究介绍了两种分布式非凸优化算法:signSGD 和 medianSGD,并发现它们在数据异构的情况下是不收敛的。作者提出了一种梯度校正机制来消除梯度的平均值和中位数之间的差异,该方法保留了这些方法的良好性质,并实现了全局收敛。此外,该文中所提的梯度校正技术在其他估计平均值的场合也有独立的应用价值。
Jun, 2019
我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降(SGD)的新算法。我们的梯度压缩技术名为压平一位随机梯度下降(FO-SGD),它依赖于两个简单的算法思想:(i)利用抖动技术的一位量化过程,和(ii)在量化之前使用随机快速 Walsh-Hadamard 变换来压平随机梯度。因此,在该方案中,真实梯度的近似是有偏的,但它避免了常见的算法问题,如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上,我们证明了在温和条件下类似于 SGD 的收敛性保证。该压缩技术可在工作机 - 服务器通信的双向上使用,因此支持具有完整通信压缩的分布式优化。
May, 2024
这篇论文研究了分布式学习方法在模型训练中的应用,针对通信延迟和收敛速度的问题提出了两种优化器:signSGD-MV 和 signSGD-FD,并通过实验结果验证了 signSGD-FD 在不同对抗攻击场景中相比传统算法具有更好的收敛速度。
Feb, 2024
本文研究了基于符号的梯度压缩算法在大规模神经网络训练中的通信瓶颈问题,通过引入误差反馈机制提高了其收敛性和泛化性能,实验结果支持该算法在不额外假设的前提下具有与标准梯度下降算法相同的优越性能。
Jan, 2019
本研究提出一种基于 SIGNSGD 的方法:Stochastic-Sign SGD,它利用新颖的随机符号梯度压缩器,在分布式学习中具有收敛性、通信效率、差分隐私以及拜占庭容错等特性,并在 MNIST 和 CIFAR-10 数据集下的深度神经网络上进行了广泛的实验验证。
Feb, 2020