MG-WFBP: 分布式同步 SGD 算法的高效数据通信
本研究提出了一种名为 Linear Pipelining(LP)的新型集合操作技术,用于在神经网络的并行训练中降低通信成本。 对 BSP-SGD 等现有方法进行了改进,并在实践中证明该方法降低了通信瓶颈,同时保持 BSP-SGD 吸引人的收敛属性。
Nov, 2016
本文提出了 Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD) 算法,实现了计算和通信的并行处理,有效减少了通信开销,较传统分布式 SGD 算法具有更高的时间加速度,在 16 个 GPU 上的 ResNet18 和 VGG16 深度神经网络训练表现出 2-3 倍的速度提升。
Jun, 2019
现代深度神经网络通常需要分布式训练以应对其巨大的规模,但当工作节点数量增加时,通过每次迭代梯度同步的数据并行小批量随机梯度方法中的通信开销成为主要瓶颈。本文引入了适应性批量大小策略,用于局部梯度方法,通过自适应地增加批量大小来减小小批量梯度的方差,提供了在均匀数据条件下的收敛性保证,并通过图像分类实验支持我们的说法,证明了我们的策略在训练和泛化中的有效性。
Jun, 2024
本文研究了 Stochastic Gradient Push 算法,将 PushSum gossip 算法与随机梯度更新相结合,证明 SGP 能以与 SGD 相同的亚线性速率收敛于平稳点,并且所有节点都能达成共识。研究结果在图像分类(ResNet-50,ImageNet)和机器翻译(Transformer,WMT'16 En-De)中进行了经验验证。
Nov, 2018
本文提出了一种在无线边缘设备间通过分布式学习模型的联合训练方式,使用 Decentralized Stochastic Gradient Descent 协议实现设备间协同训练,通过适应路径损耗、衰落、阻挡和干扰等因素的技术,在物理层上利用稀疏基础恢复实现了无线波传输和计算的处理。
Feb, 2020
本文提出深度梯度压缩 (DGC),通过动量修正、局部梯度截断、动量因子掩模和预热训练,使得分布式 SGD 中 99.9% 的梯度交换变得不重要,从而大大减少通信带宽需求,有效保持模型准确率,支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。
Dec, 2017
本文提出了一种基于贝叶斯的联合学习算法(BFL)和一种高效的改进算法(Scalable-BFL),通过优化均方误差,聚合异构的离散梯度信息,在 MNIST 数据集上的模拟实验中,这两种算法在异构网络上训练和测试神经网络时都比传统的随机梯度下降算法表现得更好。
Dec, 2020
本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步,实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。
Mar, 2022
本研究旨在解决加速卷积神经网络训练的问题,其中使用了一种适用于随机梯度下降的分布式方法。这种并行优化设置使用多个线程,每个线程在本地变量上应用单独的梯度下降,并提出了一种具有吸取交际算法启发式的共享不同线程信息的新方法,具有良好的一致收敛性和完全异步和分散式的优势,该方法称为 GoSGD。我们在 CIFAR-10 上将此方法与最近的 EASGD 作比较,结果鼓舞人心。
Nov, 2016