- ProxSkip:局部梯度步骤可证明提高通信加速!终于!
ProxSkip 是一种简单且高效的方法,用于减小平滑函数 (f) 和昂贵的不平滑的可逼近函数 (psi) 函数的总和。 这种方法可以有效地加速通信复杂度,特别适用于联邦学习的情况。
- DASHA:分布式非凸优化,包含通信压缩,最优化 Oracle 复杂度,无须客户端同步
我们开发和分析了 DASHA:一种新的非凸分布式优化问题方法,同时考虑了通信复杂度和理论 oracle。我们的新方法改善了以前的最先进的方法,特别是在有限和期望形式的本地函数的情况下。新的方法发送压缩向量,并且永远不会同步节点,这使得它们对 - 置换压缩器用于证明更快分布式非凸优化
本文研究了 Gorbunov 等人(2021 年)提出的 MARINA 方法,该方法利用精心设计的带偏置的随机梯度估计器和独立的随机通信压缩算子以最小化交流轮数和每轮传输的比特数,并将理论分析扩展到更广泛的相关压缩器的设置,引入 Hessi - FedPAGE:一种快速局部随机梯度法,用于通信效率高的联邦学习
本文提出了一种新的联邦学习算法 FedPAGE,通过利用最新的优化 PAGE 方法来代替 FedAvg 中的 SGD,从而进一步减少通信复杂度。在联邦凸优化和非凸优化两种情境下,FedPAGE 都比之前的本地方法使用更少的通信轮次,为联邦凸 - 重新思考将梯度稀疏化作为总误差最小化问题
通过考虑整个训练过程的通信复杂度模型,使用硬阈值稀疏化进行梯度压缩可以比 Top-k 稀疏化更加高效地减少通信成本,特别是在大型深度神经网络上。
- FedDR—— 用于非凸联邦复合优化的随机 Douglas-Rachford 分裂算法
我们提出了两种新的基于异步实现的算法 FedDR 和 asyncFedDR 用来解决联邦学习中的基本非凸复合优化问题,它们可以处理统计和系统异质性,并通过异步更新方式与最优通讯复杂度匹配。
- ICML异构数据中的联邦深度 AUC 最大化和通信复杂度为常数
本文主要介绍了改进的 FDAM 算法,通过分布式求解 DAM 的非凸强凹极小极大优化问题,提高了 FDAM 算法在异构数据方面的表现,此外,该算法通信复杂度不随机器数目和精度水平变化而变化。该算法在医学胸部 X 射线影像等多个数据集上得到了 - 减少异质性的联邦学习中的偏差 - 方差减小的局部 SGD
本文介绍了一种新型的本地算法 BVR-L-SGD,用于非凸分布式优化,它基于小二阶异质性的本地目标,建议在同步工作时随机选择本地模型之一而不是取其平均值,并在理论上证明了 BVR-L-SGD 在小异质性的本地目标下比以前的非本地和本地方法都 - 分布式和联邦学习的最优梯度压缩
通过使用压缩技术来减少通信成本,我们研究了在压缩向量所需的比特数和压缩误差之间的基本权衡,为最坏情况和平均情况提供了紧密的下界。我们引入了一种高效的压缩算子和一种简单的压缩算子,它们都能达到最低下界,并在实验中取得了很好的效果。
- AAAISTL-SGD:针对阶段通信周期的本地 SGD 加速
本文提出了一种称为 STL-SGD 算法的分布式机器学习算法,通过逐渐增加通信周期来降低通信复杂度并加速收敛速度,证明其具有与 mini-batch SGD 相同的收敛速度和线性加速,且在强凸或满足 Polyak-Lijasiewicz 条 - IJCAI公平分配:计算机科学家的视角
本论文综述了社交选择中一个经典且具有挑战性的问题 -- 不可分割物品的公平分配 -- 的最新进展,并探讨了计算视角如何提供公平高效分配的洞见和理解,其中包括运用知识表示、计算复杂度、近似方法、博弈论、在线分析和通信复杂性的工具。
- 混合全局和局部模型的联邦学习
提出针对联邦学习模型的新型优化公式,通过寻求全局模型与本地模型之间的平衡,使各参与设备能够从其私有数据中学习,而不需要通信。此方法类似于联邦平均 /local SGD,但能够改善具有异构数据的问题的通信,同时发现个性化能够降低通信复杂度。
- 降低通信复杂度的方差减少本地随机梯度下降
本论文提出了一种 Variance Reduced Local SGD 算法,通过消除工作人员之间的梯度方差依赖性,实现了更低的通信复杂性,以实现线性迭代加速,并在三个机器学习任务上得到了卓越的性能表现。
- 压缩迭代的分布式不动点方法
本文提出了基本而自然的假设,以便分析具有压缩迭代功能的迭代优化方法。我们开发了标准和方差减少的方法,并建立了通信复杂性界限。我们的算法是第一个具有压缩迭代的分布式方法,也是第一个具有压缩迭代的固定点方法。
- 并行重启 SPIDER -- 与最优计算复杂度的通信高效分布式非凸优化
本文提出了一种基于 SPIDER 梯度估计器的分布式算法,可用于处理随机的平滑、非凸优化问题,该算法结合了最优化方差减少技术与并行 SGD 算法,优化了可以用于联邦学习的非相同分布的数据的模型,提出的算法具有最优迭代复杂度复杂度,并实现了与 - 一种联合梯度估计和跟踪的分散非凸优化样本和通信复杂度改进方法
该文章提出了一种名为 D-GET 的去中心化随机算法,可以提高大规模机器学习中高度非凸问题的性能,同时在减少多节点通信轮数的同时,访问最少量的局部数据样本,以实现确定性有限和在线问题的小样本复杂度和通信复杂度,并优于现有方法的复杂度。
- 优化问题的通讯复杂度
研究了分布式优化中线性系统问题和优化任务的通信复杂度,并对线性规划问题的通信复杂度进行了分析。
- 压缩梯度的分布式学习
该论文提出了一种针对大规模机器学习的分布式梯度方法的统一分析框架,通过非渐进界限来推导了几种优化算法的收敛速率和信息交换,并得到了步长的显式表达式,表征了异步度和压缩精度如何影响迭代和通信复杂性保证,数值结果证实了限制信息交换下不同梯度压缩 - 拜占庭协议的通信复杂性,重新审视
本文中,我们通过禁止恶意节点进行 “废后” 删除的方法,提出了新的适应性拜占庭协议和二进制适应性拜占庭协议,这些协议不需要先前协议中所需的随机预言机等强假设,并展示了允许 “废后” 删除的拜占庭协议的超四次方通信的上限。
- MM分布式仿真和分布式推断
研究了一个关于 “simulate-and-infer” 的通信受限问题,在只要求每个参与者发送少于 log k 比特给中央仲裁者的情况下,寻找利用最少的参与者,对未知概率分布进行推断的最优策略,表明了 simulate-and-infer