深度学习模型并行加速中的陈旧度优化

Sep, 2019

深度学习模型并行加速中的陈旧度优化

On the Acceleration of Deep Learning Model Parallelism with Staleness

An Xu, Zhouyuan Huo, Heng Huang

TL;DR本研究提出了 Layer-wise Staleness 方法与 Diversely Stale Parameters (DSP) 算法来解决深度卷积神经网络的训练效率问题，并对两种梯度法进行分析和证明，实验证明 DSP 能显著提升训练速度并具备更强的鲁棒性。

Abstract

Training the deep convolutional neural network for computer vision problems is slow and inefficient, especially when it is large and distributed across multiple devices. The inefficiency is caused by the backpropagation

deep convolutional neural network backpropagation algorithm layer-wise staleness diversely stale parameters training speedup

发现论文，激发创造

分布式机器学习中滞后性的影响研究

本文探讨延迟更新对各种机器学习模型和算法收敛行为的影响，并针对非凸优化中随机梯度下降算法的收敛分析，匹配最佳已知收敛率。

Oct, 2018

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

带有延迟的分布式随机梯度下降：基于随机延迟微分方程的框架

基于随机时滞微分方程（SDDE）和概率到达梯度泊松近似，提出了统一框架来分析和优化异步分布式随机梯度下降（ASGD）的收敛性，揭示了 ASGD 的阻尼系数、延迟统计特性和收敛条件，以及调度策略的优化。同时表明增加激活的工作人员数量并不一定加速分布式随机梯度下降，而较大程度的时滞将导致其发散。通过数值实验验证了 SDDE 框架在复杂学习任务中具有的潜力。

Jun, 2024

具收敛保证的解耦并行反向传播算法

我们提出了一种去耦合的并行反向传播算法，利用延迟梯度解除了反向锁定，保证了深度学习的优化收敛性，并在标准数据集上展示了该算法的实验结果。

Apr, 2018

具有结构化数据的高效异步随机梯度算法

该研究探讨了通过 Kronecker 结构加速训练数据输入的方法，从而在数据维度的次线性时间内完成每次迭代。

May, 2023

在分布式异步环境下调控动量

提出了一种名为 DANA 的技术，旨在解决分布式异步训练的梯度走样问题，可以加速深度神经网络的训练过程且不影响最终精度。该方法在 CIFAR 和 ImageNet 数据集上表现出比现有方法更好的性能。

Jul, 2019

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

分布式同步 SGD 的再探讨

本文研究了分布式训练深度学习模型时采用同步优化的可行性，发现同步优化虽然会浪费一些等待时间，但采用备用工作者的方式可以避免异步噪声并加速收敛，同时能够在保证准确性的前提下提高测试准确率。

Apr, 2016

慢而稳定的梯度也能取得胜利

本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡，考虑到随机拖延延迟，提出了逐渐变化同步性的方法，并在 CIFAR10 数据集上表现良好。

Mar, 2020