基于异构数据的分散深度学习的 RelaySum 算法
本文研究了 Stochastic Gradient Push 算法,将 PushSum gossip 算法与随机梯度更新相结合,证明 SGP 能以与 SGD 相同的亚线性速率收敛于平稳点,并且所有节点都能达成共识。研究结果在图像分类(ResNet-50,ImageNet)和机器翻译(Transformer,WMT'16 En-De)中进行了经验验证。
Nov, 2018
我们提出了一种高效的协议,用于分布式数据源的分散式深度神经网络训练,该协议允许同等处理模型训练的不同阶段,并快速适应概念偏移,这导致与周期性通信的最先进的方法相比,通信减少了一个数量级。此外,我们得出一个通信限制,该限制随序列化学习问题难度的增加而缩放得很好,通信的减少几乎没有代价,因为预测性能保持几乎不变。实验证实了模型性能和通信之间的权衡的显着改进,这可能有助于许多分散式学习应用,例如自动驾驶或移动电话上的语音识别和图像分类。
Jul, 2018
Federated Learning is proposed as an alternative to logging and training in a data center by aggregating locally-computed updates on mobile devices to improve the user experience. The approach is shown to be robust to non-IID data distributions and reduce required communication rounds by 10-100x compared to synchronized stochastic gradient descent.
Feb, 2016
本文讨论了如何在分布式环境下利用模型平均策略进行深度学习的训练,提出了采用循环学习率和增加本地模型训练轮数两种策略的方法,并在实验中证明了该方法在多个数据中心下具有竞争性的性能。
Oct, 2018
该论文提出了一种异步分布式训练方法,利用互联网连接的具有有限资源的普通异构个人电脑的计算能力,在大型现代深度学习模型上取得了良好的性能指标,通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群,避免了每个节点承载整个模型,并采用并行多环全局参数平均方法实现全局参数平均。同时,论文在异步 SGD 损失函数上进行了解析,推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.
Jan, 2024
通过优化通信链路的混合权重,提出了一种被称为 Soft-DSGD 的鲁棒性分散式随机梯度下降方法,它能够在通信不可靠的情况下实现相同的渐近收敛速率的分散式训练系统,同时利用所有可用的非可靠通信链路加速收敛。
Aug, 2021
本文提出了一种基于离散高斯和安全聚合的训练模型方法,以保护私有数据。通过数据量化和添加离散高斯噪音,能够实现通信、隐私和准确性之间的复杂平衡,此方法在少于 16 位精度的情况下几乎能匹配集中式差分隐私的准确性水平。
Feb, 2021
本文介绍 AdaComm,一种自适应通信策略,可以更快地训练深度神经网络,使大规模机器学习训练更 robust 且具有更快的收敛速度。
Oct, 2018