动态模型平均的高效分散式深度学习

Jul, 2018

动态模型平均的高效分散式深度学习

Efficient Decentralized Deep Learning by Dynamic Model Averaging

Michael Kamp, Linara Adilova, Joachim Sicking, Fabian Hüger, Peter Schlicht...

TL;DR我们提出了一种高效的协议，用于分布式数据源的分散式深度神经网络训练，该协议允许同等处理模型训练的不同阶段，并快速适应概念偏移，这导致与周期性通信的最先进的方法相比，通信减少了一个数量级。此外，我们得出一个通信限制，该限制随序列化学习问题难度的增加而缩放得很好，通信的减少几乎没有代价，因为预测性能保持几乎不变。实验证实了模型性能和通信之间的权衡的显着改进，这可能有助于许多分散式学习应用，例如自动驾驶或移动电话上的语音识别和图像分类。

Abstract

We propose an efficient protocol for decentralized training of deep neural networks from distributed data sources. The proposed protocol allows to handle different phases of model training equally well and to qui

decentralized training deep neural networks model training communication reduction loss bounds

发现论文，激发创造

基于分散数据通信高效学习深度网络

Federated Learning is proposed as an alternative to logging and training in a data center by aggregating locally-computed updates on mobile devices to improve the user experience. The approach is shown to be robust to non-IID data distributions and reduce required communication rounds by 10-100x compared to synchronized stochastic gradient descent.

Feb, 2016

多数据中心协作深度学习

本文讨论了如何在分布式环境下利用模型平均策略进行深度学习的训练，提出了采用循环学习率和增加本地模型训练轮数两种策略的方法，并在实验中证明了该方法在多个数据中心下具有竞争性的性能。

Oct, 2018

基于联邦动态平均的高效通信分布式深度学习

由于数据的不断增长和去中心化特性，以及现代模型的不断增大，分布式深度学习 (Distributed Deep Learning, DDL) 已成为首选的训练范式。本文提出了一种名为联邦动态平均 (Federated Dynamic Averaging, FDA) 的通信高效的 DDL 策略，它根据模型方差的值动态触发同步，在广泛的学习任务实验中，我们证明 FDA 将通信成本减少了数个数量级，与传统和最新的通信高效算法相比。FDA 能在不牺牲收敛速度的情况下实现这一目标，这与该领域中的权衡相反。此外，我们还展示了 FDA 在多样的数据异质性设置中能够保持鲁棒性能。

May, 2024

并行重启 SGD：更快收敛，更少通信 —— 揭秘深度学习中模型平均的原理

本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销，并阐述该方法与并行小批量随机梯度下降（SGD）在训练时间上的相似性。

Jul, 2018

使用模型平均法并行训练深度神经网络的实验

本研究针对深度神经网络（DNN）的并行训练使用模型平均方法。多 GPU 数据并行化，MPI 进行节点间通信，每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置，研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练，可以实现 9.3 倍和 17 倍的加速，只有少量解码精度的损失。

Jul, 2015

使用分布式双均值在网络中指数级快速进行参数估计

本文提出了一种基于优化的分布参数估计和观察性社交学习方法，演示了如何使用分布式，在线的 Nesterov 双平均法解决纯粹依靠本地信息的估计，并证明了代理最终可以使用随机瓦解方案学习真实参数。

Sep, 2013

通过自适应模型平均实现拜占庭鲁棒的联邦机器学习

本文介绍了一种名为自适应联邦平均的新型算法，该算法利用隐藏马尔可夫模型来检测参与者在训练期间提供的模型更新质量，并提出一种鲁棒聚合规则以检测和丢弃每次训练迭代中的不良或恶意本地模型更新以及阻止不需要的参与者，从而在处理噪声、故障和恶意参与者时具有更高的鲁棒性和计算效率。

Sep, 2019

局部更新 SGD 中的最佳错误 - 运行时间平衡的自适应通信策略

本文介绍 AdaComm，一种自适应通信策略，可以更快地训练深度神经网络，使大规模机器学习训练更 robust 且具有更快的收敛速度。

Oct, 2018

异构数据下的分布式学习均衡速率调度器

提出了平均速率调度作为减轻分散式学习中异质性影响的一种简单有效的方法，实验证明了该方法相对于采用恒定平均速率的传统方法的优越性（测试精度提高了约 3%）

Mar, 2024

基于异构数据的分散深度学习的 RelaySum 算法

本研究提出了 RelaySum 机制来解决分散式学习中不同工作节点之间数据分布的差异所带来的挑战，该机制利用生成树将信息分配给所有工作节点，并证明了基于该机制的 RelaySGD 对于数据异构性是独立的，并可扩展到许多工作节点，从而在异构数据上实现高精度的分散式深度学习。

Oct, 2021