面向通信高效的自适应梯度方法
本文介绍了一种名为自适应联邦 Dropout(AFD)的新型技术,用于减少联邦学习中与通信成本相关的问题,此策略与现有压缩方法相结合可以提供高达 57 倍的收敛时间,同时还改善了模型泛化。
Nov, 2020
本篇论文提出了一种新的 SGD 变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了 1B 字数据集的训练时间 30%。
Nov, 2019
Federated Learning is proposed as an alternative to logging and training in a data center by aggregating locally-computed updates on mobile devices to improve the user experience. The approach is shown to be robust to non-IID data distributions and reduce required communication rounds by 10-100x compared to synchronized stochastic gradient descent.
Feb, 2016
通过学习优化器的方法,本研究证明了学习优化器在保持通信高效性的同时,能够明显优于本地 SGD 及其衍生变体,甚至在未见过的更大规模数据集、架构(如 ImageNet 和 ViTs)以及语言模型等方面具有推广性,从而展示了学习优化器改进通信高效分布式学习的潜力。
Dec, 2023
本文提出了 Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD) 算法,实现了计算和通信的并行处理,有效减少了通信开销,较传统分布式 SGD 算法具有更高的时间加速度,在 16 个 GPU 上的 ResNet18 和 VGG16 深度神经网络训练表现出 2-3 倍的速度提升。
Jun, 2019
现代深度神经网络通常需要分布式训练以应对其巨大的规模,但当工作节点数量增加时,通过每次迭代梯度同步的数据并行小批量随机梯度方法中的通信开销成为主要瓶颈。本文引入了适应性批量大小策略,用于局部梯度方法,通过自适应地增加批量大小来减小小批量梯度的方差,提供了在均匀数据条件下的收敛性保证,并通过图像分类实验支持我们的说法,证明了我们的策略在训练和泛化中的有效性。
Jun, 2024
通过引导参与联邦学习的设备基于业务需求、资源负载、网络状况和设备的算术能力,计算和网络融合(CNC)可以提高联邦学习在复杂网络环境中的通信效率,并通过优化模型参数传输过程中的通信效率来解决复杂网络情况下的延迟分布和网络资源利用率的问题。
Nov, 2023
本文提出了一种在无线边缘设备间通过分布式学习模型的联合训练方式,使用 Decentralized Stochastic Gradient Descent 协议实现设备间协同训练,通过适应路径损耗、衰落、阻挡和干扰等因素的技术,在物理层上利用稀疏基础恢复实现了无线波传输和计算的处理。
Feb, 2020