- 基于 KL 分析的框架及其在非降梯度优化方法中的应用
我们提出了一种新的分析框架,用于非凸场景中基于 Kurdyka-Lojasiewicz 性质的非递减型优化方法。我们的框架可以覆盖广泛的算法类别,包括随机和分布式优化中常用的方法。具体来说,它能够分析缺乏足够下降属性且不要求对完整(确定性) - 在模拟家庭环境中的联邦学习中学习社交合适的代理行为
社交机器人在日常生活中的广泛应用中,确保它们的行为与社会规范相一致至关重要。为了实现广泛应用场景,探索个体机器人可以在了解自己独特环境的同时,也能从其他机器人的经验中学习的联邦学习(FL)设置是很重要的。本文介绍了一种新颖的 FL 基准,评 - 关于联邦学习的原则性本地优化方法
本篇论文以三个方向推动本地方法的理论基础:(1)建立 FedAvg 的尖锐界限;(2)提出了 FedAvg 的有原则的加速方法 FedAc;(3)研究了扩展经典平滑设置的 Federated Composite Optimization 问 - AAAI关于服务器动量在联邦学习中的作用
提出了一种服务器动量的通用框架,用来解决联邦学习中由于客户端系统和数据异质性引起的收敛问题,并通过严密的收敛分析和大量实验证实了该框架的有效性。
- DiLoCo: 分布式低通信语言模型训练
利用分布式优化算法 DiLoCo,可以在受连接限制的设备群组中训练语言模型,具有与完全同步优化相媲美的性能,但通信开销降低了 500 倍,并且对于数据分布和资源可用性的变化都具有良好的鲁棒性。
- 深度线性神经网络联邦平均的神经切线核视角
使用 NTK 理论进一步提供对联邦平均(FedAvg)在训练深度线性神经网络方面全局收敛的第一个理论保证,通过实验评估验证了理论发现的正确性。
- 基于知识蒸馏的异构联邦学习
通过使用双向知识蒸馏方法,在具有不同性能的一部分客户端上训练较大的模型和整体池上训练较小的模型,实现不同领域之间的模型域转移,从而提高联邦平均算法的性能。该方法在图像分类和语言建模任务中表现出改进的效果,即使只有领域外或领域内有限的蒸馏数据 - Dirichlet 分布异构数据的 FedAvg 和 Per-FedAvg 算法的比较评估
该研究调查了联邦学习(FL)这一机器学习范式,允许在不共享原始数据的设备上进行分散模型训练,从而保护数据隐私。我们比较了该范式内的两种策略:联邦平均(FedAvg)和个性化联邦平均(Per-FedAvg),重点关注它们在非独立同分布数据(N - 通过选择性同步加速分布式机器学习训练
本文提出了一种名为 SelSync 的低开销方法,用于 DNN 训练,该方法具有动态选择通信与否的功能,可提高收敛性,比 BSP 技术减少训练时间高达 14 倍。
- 基于信道驱动随机梯度 Langevin 动力学的贝叶斯 OTA FedAvg
本文提出了一种无线 FALD 协议(WFALD),通过实现空气中的计算和无线信道抽样以进行蒙特卡罗更新,实现了 FALD 在无线系统中的实现,该协议通过小批量计算随机梯度,并分别属于 Bayesian learning 和机器学习中的联邦学 - 关于异构数据下联邦平均的非常高效性
这篇论文解释了之前理论预测与实际表现矛盾的问题,发现数据异质性对于 FedAvg 算法的收敛效率影响要小于之前理论预测,通过引入新的指标(即平均漂移值)重新理论分析 FedAvg 算法,发现其在实际应用中的表现能够和同构的数据集一样并获得了 - 联邦平均(局部 SGD)和连续视角的锐界
本文介绍了在联邦学习中最流行的算法之一 - 联邦平均(FedAvg),尽管其简单易用,但至今其收敛率仍未确定,并且该算法的收敛速度受限于其假设的条件。该研究通过提供一个匹配现有上限的 FedAvg 下限解决了已有的收敛速度问题,同时还证实了 - ICLR小批量 SGD 与局部 SGD 洗牌:紧密收敛界与进一步研究
研究分布式学习中的本地 SGD 和基于随机梯度的优化方法,通过随机梯度下降的方案,降低了随机抽样带来的估计偏差和方差,提高了模型的训练效率,实验表明,该方案的效果比替代方案更好。
- FedCM: 客户级动量的联邦学习
本文提出了一种名为 FedCM 的新型联邦平均算法,用于解决现实世界联邦学习应用中的部分参与和客户异质性问题。它在以前的通信轮次中聚合全局梯度信息,并修改客户端梯度下降,可以有效地纠正偏差并提高本地 SGD 的稳定性。作者提供了理论分析和广 - 分散式聯合平均算法
本文研究了联邦平均算法的去中心化版本,并使用无向图连接的客户端来实现,其在节点间仅通信与邻居节点;此外,还进一步研究了该算法的量化版本,并证明了在满足某些条件下该算法收敛性;最终通过数值实验验证了其有效性。
- 联邦学习的最优客户采样
本文通过一种新的客户端子采样方案解决联邦学习中客户端 — 主节点通信的瓶颈问题,并提供了适用于分布式随机梯度下降和联邦平均等方法的简单算法,可优化客户端参与度,且不危害客户隐私,从而在减少通信开销的同时实现了准确的全局模型更新。
- FedPD: 一种具有最优速率和适应非独立同分布数据的联邦学习框架
本文从原始对偶优化角度提出一种新的机器学习算法策略来解决分布式学习过程中的非凸问题,使得此算法成为分布式学习架构中所有特性最优秀的算法框架,并且具有通信效率。
- 局部 SGD 比小批量 SGD 更好吗?
本文研究了局部 SGD(也称为并行 SGD 和联邦平均),一个自然且常用的随机分布式优化方法。在凸设置中,我们证明了局部 SGD 严格优于小批量 SGD,并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时,我们还提供了总体上至少有时 - ICMLSCAFFOLD:面向联邦学习的随机控制平均算法
通过引入控制变量技术,我们提出了一种新的算法(SCAFFOLD),减轻了 FedAvg 在异构数据(non-iid)上的不稳定性和慢收敛问题,从而使其需要的通信轮次大大减少,在分布式优化中新的成果是我们证明了 SCAFFOLD 可以利用客户 - 通过模型不可知元学习提高联邦学习个性化能力
本文探讨了通过元学习算法为联邦学习实现个性化的可能性。结果表明,联邦平均算法可以被解释为一种元学习算法,并且通过细致的微调,可以得到更准确、更易于个性化的全局模型。