通过稀疏和对齐的自适应优化实现通信高效的联邦学习
本文提出了各种基于联邦学习的自适应梯度方法以及各种校准方法,比如标准 Adam,p-Adam 和激活函数校准方法等等,为非凸优化中非独立同分布和不平衡数据中的(校准的)联邦 AGMs 提供了第一组理论结果。通过与现有的联邦学习方法 FedAvg、FedMomentum 和 SCAFFOLD 进行了广泛的实验比较,可以看出 AGMs 相对于当前联邦学习方法的优势。
Sep, 2020
通过使用新的 DFL 算法,DFedADMM 和 DFedADMM-SAM,我们解决了去中心化联邦学习中的局部一致性和局部异构过拟合的问题,并在 MNIST、CIFAR10 和 CIFAR100 数据集上验证了算法在泛化性能和收敛速度方面的优越表现。
Aug, 2023
基于不对称拓扑结构和 Push-Sum 协议,DFedSGPSM 算法以解决共识优化问题为目标,结合 Sharpness Aware Minimization(SAM)优化器和本地动量,提高算法性能并减轻联邦学习中的本地异质过拟合问题。理论分析证明在非凸平滑环境下,DFedSGPSM 算法以 O (1/√T) 的收敛速率收敛于全局最优解,而更好的拓扑连接性能会得到更严格的上界。在 MNIST、CIFAR10 和 CIFAR100 数据集上进行的大量实验表明,与最先进的优化器相比,我们的算法具有更优越的性能。
Oct, 2023
本文提出了一种新的 FedADMM 协议用于非凸目标函数下的联邦学习,利用双重变量解决统计异质性,该算法通过扩展 Lagrangian 以保持每轮相同的通信成本和推广 FedAvg/Prox。在真实数据集上的实验结果表明,FedADMM 在减少所需轮数的通信效率方面优于所有基线方法,尤其在大规模系统中其优势更为明显。
Apr, 2022
通过无线信道特性的迭加性以及动态调整的全局梯度更新步长,我们提出了一种适用于无线环境下的模型训练框架中 AdaGrad 和 Adam 的联邦版本。通过推导包含信道衰落和干扰影响的广泛非凸损失函数训练算法的收敛速率,我们得出了使用 AdaGrad 的算法以 O (ln (T)/T^(1-1/α)) 的速率收敛到一个静止点,其中 α 代表电磁干扰的尾指数。相比之下,类似 Adam 的算法以 O (1/T) 的速率收敛,说明它在加快模型训练过程上的优势。我们进行了大量实验证实了理论发现,并证实了我们提出的联邦自适应梯度方法的实际有效性。
Mar, 2024
提出了一种分布式的自适应优化方法 (extsc {Dadam}),它允许数据并行计算和分散的计算,在某些损失函数的应用中能够优于集中式自适应算法。
Jan, 2019
本篇论文提出了一种新的 SGD 变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了 1B 字数据集的训练时间 30%。
Nov, 2019
本文提出了一种称为 Federated Dynamic Sparse Training(FedDST)的 novel FL 框架,旨在动态提取和训练目标网络中的稀疏子网络,并实现了在设备计算和网络通信方面的高效,相对于固定稀疏掩模的方法,它在本地异质性适应和 FL 性能方面具有较大的优势,在非 i.i.d FL 设置下,FedDST 在数据传输上的表现显著优于竞争性算法。
Dec, 2021
本文提出了一种称为 Efficient-Adam 的新型通信高效的分布式优化算法,采用双向量化策略和双向误差反馈策略,在保证迭代收敛精度的同时有效减少了服务器与工作节点之间的通信成本,并应用于解决了一个随机凸优化问题,以及在实际视觉和语言任务中训练深度学习模型,同时进行了大量实验和理论分析以验证其优越性。
May, 2022
通过模拟传输和交替方向乘法的方法(ADMM),在单个信道上利用无线通道波动和干扰来改善隐私、带宽效率和可伸缩性的可扩展联合学习机制,可实现收敛保证的隐私保护,同时提高收敛速度、可扩展性、通信带宽和能量效率。
Jul, 2020