BROADCAST: 减少随机噪声和压缩噪声以增强通信效率的联邦学习

Apr, 2021

BROADCAST: 减少随机噪声和压缩噪声以增强通信效率的联邦学习

BROADCAST: Reducing Both Stochastic and Compression Noise to Robustify Communication-Efficient Federated Learning

Heng Zhu, Qing Ling

TL;DR本文探讨了在大规模联邦学习中由于通信过载而引起的压缩问题，提出了一种可减少噪声并提高拜占庭攻击鲁棒性的压缩梯度差分方法，并提供了理论证明和数值实验结果。

Abstract

Communication between workers and the master node to collect local stochastic gradients is a key bottleneck in a large-scale federated learning system. Various recent works have proposed to compress the local stochastic gradients to mitigate the communication overhead. However, robustn

federated learning compression byzantine attacks gradient difference compression linear convergence rate

发现论文，激发创造

具有拜占庭攻击鲁棒性的联邦方差减少随机梯度下降

本文针对分布式网络下存在 Byzantine 攻击的有限和优化学习问题，提出了一种基于几何中位数的抗攻击分布式学习方法 Byrd-SAGA，通过减小随机梯度的方差来实现对抗攻击的鲁棒性和线性快速收敛性。实验结果表明，相较于分布式 SGD 方法，该方法具备更强的抗攻击性和更快的收敛速度。

Dec, 2019

具有随机梯度噪声独立学习误差的拜占庭鲁棒型分散式随机优化

该研究探讨了分布式网络中拜占庭鲁棒随机优化问题，其中每个代理定期与其邻居通信以交换本地模型，然后通过随机梯度下降（SGD）更新其本地模型。通过引入两种方差减小方法（SAGA 和 LSVRG），该方法在消除了随机梯度噪声的负面影响后，实现了线性收敛速度和随机梯度噪声独立的学习误差，对基于总变异（TV）范数正则化和随机子梯度更新的方法具有最优的学习误差表现，并在广泛的拜占庭攻击实验中得到了验证。

Aug, 2023

具容错机制和高通信效率的分布式学习模型

本篇论文介绍了一种分布式学习算法，通过采用压缩梯度和梯度阈值等方法，减少了拜占庭故障的影响，并提高了通信效率，以达到优化分布式机器学习的目的。

Nov, 2019

适用于异构数据的高维拜占庭鲁棒随机梯度下降

研究了在分布式随机梯度下降的标杆攻击下，通过采用异构数据模型和基于多项式时间的离群值过滤程序进行梯度的鲁棒均值估计，提出了一种新的矩阵集中结果，并且发现了在平稳强凸和非凸目标下，我们的算法可以达到和贝叶斯自由设置中的 SGF 相同的收敛速度，并且可以容忍达到 1/4 的标杆式工作者。

May, 2020

拜占庭强健学习的通信压缩：新的高效算法和改进的速率

通过压缩和收敛速率，提出了两种新的拜占庭容错化方法，并证明了它们在非凸和 Polyak-Lojasiewicz 平滑优化问题中具有更好的收敛速率、异构情况下更小的邻域大小以及在过参数化时更能容忍拜占庭节点；同时还开发了带有压缩和误差反馈的第一种拜占庭容错化方法，并推导了这些方法在非凸和 Polyak-Lojasiewicz 平滑情况下的收敛速率，并通过数值实验证明了理论发现。

Oct, 2023

边缘拜占庭容错联邦学习

本文研究边缘联邦学习中的随机凸和非凸优化问题，以解决处理重尾数据时现有算法的不足，并同时保持拜占庭鲁棒性，通信效率和最佳统计误差率。我们提出了两种算法，分别是具有拜占庭鲁棒性的分布式梯度下降算法，以及结合梯度压缩技术的通信开销较小的算法。理论分析表明，我们的算法在存在拜占庭设备的情况下实现了最优的统计误差率。最后，我们在合成和现实世界数据集上进行了广泛的实验，以验证算法的有效性。

Mar, 2023

去中心化随机优化和 Gossip 算法的压缩通信

提出了一种基于 gossip 的分散随机优化算法 CHOCO-SGD 和解决平均一致性问题的新型 gossip 算法 CHOCO-GOSSIP，旨在在机器学习任务上实现数据分布和优化，有效降低通信成本并能提高算法效率。

Feb, 2019

RSA: 分布式异构数据学习的拜占庭容错随机聚合方法

本文提出了一种适用于异构数据集的分布式学习的鲁棒性随机次梯度方法 ——Byzantine-Robust Stochastic Aggregation (RSA) 方法，用来应对 Byzantine 工人的攻击。RSA 方法不依赖于数据是独立同分布的假设，具有更广泛的适用性。理论上，RSA 收敛到一个接近最优解的解决方案，学习错误取决于 Byzantine 工作人员数目，收敛速率与没有 Byzantine 工人的随机梯度下降方法相同。数值实验表明，RSA 具有竞争性的性能和与现有算法相比较的复杂度降低。

Nov, 2018

扁平化一比特随机梯度下降：受控方差的压缩分布式优化

我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降（SGD）的新算法。我们的梯度压缩技术名为压平一位随机梯度下降（FO-SGD），它依赖于两个简单的算法思想：（i）利用抖动技术的一位量化过程，和（ii）在量化之前使用随机快速 Walsh-Hadamard 变换来压平随机梯度。因此，在该方案中，真实梯度的近似是有偏的，但它避免了常见的算法问题，如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上，我们证明了在温和条件下类似于 SGD 的收敛性保证。该压缩技术可在工作机 - 服务器通信的双向上使用，因此支持具有完整通信压缩的分布式优化。

May, 2024

压缩联邦学习：统一分析和精确保证

通过定期压缩通信的算法，分析其收敛性并探讨其与局部计算的关系，提出了一种本地梯度追踪方案，以缓解数据异质性，实现了更快的收敛速度和更好的算法效果。

Jul, 2020