多数据中心协作深度学习
我们提出了一种高效的协议,用于分布式数据源的分散式深度神经网络训练,该协议允许同等处理模型训练的不同阶段,并快速适应概念偏移,这导致与周期性通信的最先进的方法相比,通信减少了一个数量级。此外,我们得出一个通信限制,该限制随序列化学习问题难度的增加而缩放得很好,通信的减少几乎没有代价,因为预测性能保持几乎不变。实验证实了模型性能和通信之间的权衡的显着改进,这可能有助于许多分散式学习应用,例如自动驾驶或移动电话上的语音识别和图像分类。
Jul, 2018
Federated Learning is proposed as an alternative to logging and training in a data center by aggregating locally-computed updates on mobile devices to improve the user experience. The approach is shown to be robust to non-IID data distributions and reduce required communication rounds by 10-100x compared to synchronized stochastic gradient descent.
Feb, 2016
本研究针对深度神经网络(DNN)的并行训练使用模型平均方法。多 GPU 数据并行化,MPI 进行节点间通信,每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置,研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练,可以实现 9.3 倍和 17 倍的加速,只有少量解码精度的损失。
Jul, 2015
本文研究了加权模型平均对任意标量均值估计问题的影响,发现加权平均模型可以减少局部模型的期望平方误差,并量化了加权模型平均的(可能为负的)益处。这项研究正式确定了一种量化协作学习个性化价值的方法,并为未来多元参数估计和基于一系列假设的检验研究提供了框架。
Oct, 2021
本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销,并阐述该方法与并行小批量随机梯度下降(SGD)在训练时间上的相似性。
Jul, 2018
本论文研究了分散式深度学习模型的训练,提出了共识距离作为影响中心式和分散式训练效果的关键因素,并在理论和实验上证明了降低共识距离可以提高分散式训练模型的泛化性能。同时,本论文提供了实用的训练指南以缓解训练效果下降。
Feb, 2021
该论文提出了一种异步分布式训练方法,利用互联网连接的具有有限资源的普通异构个人电脑的计算能力,在大型现代深度学习模型上取得了良好的性能指标,通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群,避免了每个节点承载整个模型,并采用并行多环全局参数平均方法实现全局参数平均。同时,论文在异步 SGD 损失函数上进行了解析,推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.
Jan, 2024
该研究对联邦学习框架下聚合策略进行了全面的数学收敛分析,并通过与 FedAvg 进行分类任务的比较来评估其性能,得出了新的聚合算法,该算法可以通过区分客户端贡献的价值来修改其模型架构。
May, 2022