基于异构数据的分散深度学习的 RelaySum 算法

Oct, 2021

基于异构数据的分散深度学习的 RelaySum 算法

RelaySum for Decentralized Deep Learning on Heterogeneous Data

Thijs Vogels, Lie He, Anastasia Koloskova, Tao Lin, Sai Praneeth Karimireddy...

TL;DR本研究提出了 RelaySum 机制来解决分散式学习中不同工作节点之间数据分布的差异所带来的挑战，该机制利用生成树将信息分配给所有工作节点，并证明了基于该机制的 RelaySGD 对于数据异构性是独立的，并可扩展到许多工作节点，从而在异构数据上实现高精度的分散式深度学习。

Abstract

In decentralized machine learning, workers compute model updates on their local data. Because the workers only communicate with few neighbors without central coordination, these updates propagate progressively over the network. This paradigm enables →

decentralized machine learning data privacy distributed training relaysum mechanism data heterogeneity

发现论文，激发创造

分布式深度学习的随机梯度推动

本文研究了 Stochastic Gradient Push 算法，将 PushSum gossip 算法与随机梯度更新相结合，证明 SGP 能以与 SGD 相同的亚线性速率收敛于平稳点，并且所有节点都能达成共识。研究结果在图像分类（ResNet-50，ImageNet）和机器翻译（Transformer，WMT'16 En-De）中进行了经验验证。

Nov, 2018

动态模型平均的高效分散式深度学习

我们提出了一种高效的协议，用于分布式数据源的分散式深度神经网络训练，该协议允许同等处理模型训练的不同阶段，并快速适应概念偏移，这导致与周期性通信的最先进的方法相比，通信减少了一个数量级。此外，我们得出一个通信限制，该限制随序列化学习问题难度的增加而缩放得很好，通信的减少几乎没有代价，因为预测性能保持几乎不变。实验证实了模型性能和通信之间的权衡的显着改进，这可能有助于许多分散式学习应用，例如自动驾驶或移动电话上的语音识别和图像分类。

Jul, 2018

基于分散数据通信高效学习深度网络

Federated Learning is proposed as an alternative to logging and training in a data center by aggregating locally-computed updates on mobile devices to improve the user experience. The approach is shown to be robust to non-IID data distributions and reduce required communication rounds by 10-100x compared to synchronized stochastic gradient descent.

Feb, 2016

基于拓扑结构的去重构防护技术在去中心化学习中的应用

分布式学习中的隐私保护求和，在无环网络中无法重构隐私数据，而基于拓扑结构的去重构攻击是首次的拓扑学方法。

Dec, 2023

多数据中心协作深度学习

本文讨论了如何在分布式环境下利用模型平均策略进行深度学习的训练，提出了采用循环学习率和增加本地模型训练轮数两种策略的方法，并在实验中证明了该方法在多个数据中心下具有竞争性的性能。

Oct, 2018

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

规模安全分布式训练

本文提出了一种新颖的协议，用于安全的（拜占庭容错）分散式训练，强调通信效率。

Jun, 2021

不可靠通信的分散联邦学习

通过优化通信链路的混合权重，提出了一种被称为 Soft-DSGD 的鲁棒性分散式随机梯度下降方法，它能够在通信不可靠的情况下实现相同的渐近收敛速率的分散式训练系统，同时利用所有可用的非可靠通信链路加速收敛。

Aug, 2021

分布式离散高斯机制在带有安全聚合的联邦学习中的应用

本文提出了一种基于离散高斯和安全聚合的训练模型方法，以保护私有数据。通过数据量化和添加离散高斯噪音，能够实现通信、隐私和准确性之间的复杂平衡，此方法在少于 16 位精度的情况下几乎能匹配集中式差分隐私的准确性水平。

Feb, 2021

局部更新 SGD 中的最佳错误 - 运行时间平衡的自适应通信策略

本文介绍 AdaComm，一种自适应通信策略，可以更快地训练深度神经网络，使大规模机器学习训练更 robust 且具有更快的收敛速度。

Oct, 2018