通过选择性同步加速分布式机器学习训练

Jul, 2023

通过选择性同步加速分布式机器学习训练

Accelerating Distributed ML Training via Selective Synchronization

Sahil Tyagi, Martin Swany

TL;DR本文提出了一种名为 SelSync 的低开销方法，用于 DNN 训练，该方法具有动态选择通信与否的功能，可提高收敛性，比 BSP 技术减少训练时间高达 14 倍。

Abstract

In distributed training, deep neural networks (dnns) are launched over multiple workers concurrently and aggregate their local updates on each step in bulk-synchronous parallel (BSP) training. However, BSP does n

dnns distributed training federated averaging stale-synchronous parallel selsync

发现论文，激发创造

加速半异步联邦学习

传统的联邦学习方法由于数据上传同步方式导致速度慢且不可靠，本论文提出了一种考虑不同更新贡献、适应数据延迟与异质性的异步联邦学习方法，有效提升了收敛速度。

Feb, 2024

基于联邦动态平均的高效通信分布式深度学习

由于数据的不断增长和去中心化特性，以及现代模型的不断增大，分布式深度学习 (Distributed Deep Learning, DDL) 已成为首选的训练范式。本文提出了一种名为联邦动态平均 (Federated Dynamic Averaging, FDA) 的通信高效的 DDL 策略，它根据模型方差的值动态触发同步，在广泛的学习任务实验中，我们证明 FDA 将通信成本减少了数个数量级，与传统和最新的通信高效算法相比。FDA 能在不牺牲收敛速度的情况下实现这一目标，这与该领域中的权衡相反。此外，我们还展示了 FDA 在多样的数据异质性设置中能够保持鲁棒性能。

May, 2024

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

分布式同步 SGD 的再探讨

本文研究了分布式训练深度学习模型时采用同步优化的可行性，发现同步优化虽然会浪费一些等待时间，但采用备用工作者的方式可以避免异步噪声并加速收敛，同时能够在保证准确性的前提下提高测试准确率。

Apr, 2016

动态模型平均的高效分散式深度学习

我们提出了一种高效的协议，用于分布式数据源的分散式深度神经网络训练，该协议允许同等处理模型训练的不同阶段，并快速适应概念偏移，这导致与周期性通信的最先进的方法相比，通信减少了一个数量级。此外，我们得出一个通信限制，该限制随序列化学习问题难度的增加而缩放得很好，通信的减少几乎没有代价，因为预测性能保持几乎不变。实验证实了模型性能和通信之间的权衡的显着改进，这可能有助于许多分散式学习应用，例如自动驾驶或移动电话上的语音识别和图像分类。

Jul, 2018

大规模神经网络训练中的高效通信

本研究提出了一种名为 Linear Pipelining（LP）的新型集合操作技术，用于在神经网络的并行训练中降低通信成本。对 BSP-SGD 等现有方法进行了改进，并在实践中证明该方法降低了通信瓶颈，同时保持 BSP-SGD 吸引人的收敛属性。

Nov, 2016

分布式深度学习的随机梯度推动

本文研究了 Stochastic Gradient Push 算法，将 PushSum gossip 算法与随机梯度更新相结合，证明 SGP 能以与 SGD 相同的亚线性速率收敛于平稳点，并且所有节点都能达成共识。研究结果在图像分类（ResNet-50，ImageNet）和机器翻译（Transformer，WMT'16 En-De）中进行了经验验证。

Nov, 2018

异步联邦学习中实现线性加速

我们提出了一种高效的异步联邦学习（AFL）框架，称为延迟联邦平均（DeFedAvg），通过在自己的速度上使用不同陈旧的全局模型，DeFedAvg 可以达到与 FedAvg 相当的渐近收敛速率，同时也是第一个具有可证明的良好线性加速特性的 AFL 算法，从而表明其高可扩展性。

Feb, 2024

带缓存异步聚合的联邦学习

本文提出了一种新的缓存异步聚合方法 FedBuff，它结合了同步和异步 federated learning 的最佳属性，可在不影响系统隐私的情况下提高效率，大大缓解了跨设备联合学习中的可扩展性和隐私问题。

Jun, 2021

使用模型平均法并行训练深度神经网络的实验

本研究针对深度神经网络（DNN）的并行训练使用模型平均方法。多 GPU 数据并行化，MPI 进行节点间通信，每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置，研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练，可以实现 9.3 倍和 17 倍的加速，只有少量解码精度的损失。

Jul, 2015