多数据中心协作深度学习

AAAIOct, 2018

Collaborative Deep Learning Across Multiple Data Centers

Kele Xu, Haibo Mi, Dawei Feng, Huaimin Wang, Chuan Chen...

TL;DR本文讨论了如何在分布式环境下利用模型平均策略进行深度学习的训练，提出了采用循环学习率和增加本地模型训练轮数两种策略的方法，并在实验中证明了该方法在多个数据中心下具有竞争性的性能。

Abstract

Valuable training data is often owned by independent organizations and located in multiple data centers. Most deep learning approaches require to centralize the multi-datacenter data for performance purpose. In p

deep learning multi-datacenter model averaging decentralized training cyclical learning rate

发现论文，激发创造

动态模型平均的高效分散式深度学习

我们提出了一种高效的协议，用于分布式数据源的分散式深度神经网络训练，该协议允许同等处理模型训练的不同阶段，并快速适应概念偏移，这导致与周期性通信的最先进的方法相比，通信减少了一个数量级。此外，我们得出一个通信限制，该限制随序列化学习问题难度的增加而缩放得很好，通信的减少几乎没有代价，因为预测性能保持几乎不变。实验证实了模型性能和通信之间的权衡的显着改进，这可能有助于许多分散式学习应用，例如自动驾驶或移动电话上的语音识别和图像分类。

Jul, 2018

基于分散数据通信高效学习深度网络

Federated Learning is proposed as an alternative to logging and training in a data center by aggregating locally-computed updates on mobile devices to improve the user experience. The approach is shown to be robust to non-IID data distributions and reduce required communication rounds by 10-100x compared to synchronized stochastic gradient descent.

Feb, 2016

使用模型平均法并行训练深度神经网络的实验

本研究针对深度神经网络（DNN）的并行训练使用模型平均方法。多 GPU 数据并行化，MPI 进行节点间通信，每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置，研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练，可以实现 9.3 倍和 17 倍的加速，只有少量解码精度的损失。

Jul, 2015

最优模型平均化：走向个性化协作学习

本文研究了加权模型平均对任意标量均值估计问题的影响，发现加权平均模型可以减少局部模型的期望平方误差，并量化了加权模型平均的（可能为负的）益处。这项研究正式确定了一种量化协作学习个性化价值的方法，并为未来多元参数估计和基于一系列假设的检验研究提供了框架。

Oct, 2021

并行重启 SGD：更快收敛，更少通信 —— 揭秘深度学习中模型平均的原理

本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销，并阐述该方法与并行小批量随机梯度下降（SGD）在训练时间上的相似性。

Jul, 2018

分散式深度學習共識控制

本论文研究了分散式深度学习模型的训练，提出了共识距离作为影响中心式和分散式训练效果的关键因素，并在理论和实验上证明了降低共识距离可以提高分散式训练模型的泛化性能。同时，本论文提供了实用的训练指南以缓解训练效果下降。

Feb, 2021

神经网络集成方法的比较

提出一种多方计算协议，旨在处理在具有实际数据时出现的不一致性，同时保护医疗数据的隐私和安全，其中采用了神经网络的三种方法进行了分析和比较。

Mar, 2023

层间线性模态连通性

本文探讨联邦学习中的全局模型构建方法，并且指出传统平均参数在非凸性学习面上无法保证性能，提出联邦学习难以成功的原因与特定层和层组合的「壁垒」有关。

Jul, 2023

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

联邦学习聚合：具有保证的新的鲁棒算法

该研究对联邦学习框架下聚合策略进行了全面的数学收敛分析，并通过与 FedAvg 进行分类任务的比较来评估其性能，得出了新的聚合算法，该算法可以通过区分客户端贡献的价值来修改其模型架构。

May, 2022