通过裁剪梯度提升分布式学习的鲁棒性

May, 2024

通过裁剪梯度提升分布式学习的鲁棒性

Boosting Robustness by Clipping Gradients in Distributed Learning

Youssef Allouah, Rachid Guerraoui, Nirupam Gupta, Ahmed Jellouli, Geovani Rizk...

TL;DR通过引入新的方案，即自适应鲁棒剪裁 (ARC)，在模型初始化时限制工作人员梯度，从而改善鲁棒分布式梯度下降 (Robust-DGD) 的学习性能，特别是在可容忍的错误工作人员比例接近失效点时，该改进因子更为突出。

Abstract

robust distributed learning consists in achieving good learning performance despite the presence of misbehaving workers. State-of-the-art (SOTA) robust distributed gradient descent (robust-dgd) methods, relying o

robust distributed learning robust aggregation robust-dgd pre-aggregation clipping adaptive robust clipping

发现论文，激发创造

拜占庭健壮性和部分参与可以同时实现：只需裁剪梯度差异

提出了一种具有客户端抽样和对拜占庭工作者的可证明容错性的分布式方法。通过梯度剪裁控制递归方差减少中的随机梯度差异来限制拜占庭工作者可能造成的潜在危害，并且结合通信压缩来提高通信效率。在相当一般的假设下，证明了该方法的收敛速度与现有的理论结果相匹配。

Nov, 2023

具有拜占庭攻击鲁棒性的联邦方差减少随机梯度下降

本文针对分布式网络下存在 Byzantine 攻击的有限和优化学习问题，提出了一种基于几何中位数的抗攻击分布式学习方法 Byrd-SAGA，通过减小随机梯度的方差来实现对抗攻击的鲁棒性和线性快速收敛性。实验结果表明，相较于分布式 SGD 方法，该方法具备更强的抗攻击性和更快的收敛速度。

Dec, 2019

分布鲁棒学习的无偏梯度估计

通过分布式鲁棒性学习，我们提出了一种新的方法以解决模型的泛化问题，该方法采用随机梯度下降求解外层最小化问题，并通过多层蒙特卡罗随机化有效地估计内层最大化问题的梯度，并通过得出理论结果确定了梯度估计器的最佳参数化，从而在计算时间和统计方差之间平衡。数值实验证明，我们的 DRL 方法在以往研究中具有显著优势。

Dec, 2020

从历史中学习的拜占庭鲁棒优化

该论文研究了分布式和联邦学习中拜占庭容错性的问题，提出了两种新的稳健算法来解决已有算法的缺陷，并提供了代码解决方案。

Dec, 2020

分布式鲁棒优化下的随机重新加权梯度下降

本研究提出了一种基于 $f$-divergences 的分布式鲁棒最优化重加权梯度下降技术，通过数据点的重要性加权来提高深度神经网络的性能，该方案具有简单和高效等特点，可用于任何受欢迎的优化算法，并可在诸如分类、噪声标签、领域适应和表格表示学习等各种任务中提高性能。该方法在 DomainBed 和 Tabular 基准测试中的表现比 SOTA 提高了 0.7% 和 1.44%，对 GLUE 基准测试中的 BERT 表现提升了 1.94%，对 ImageNet-1K 中的 ViT 表现提升了 0.9%，证明了该方法的有效性和潜力。

Jun, 2023

RSA: 分布式异构数据学习的拜占庭容错随机聚合方法

本文提出了一种适用于异构数据集的分布式学习的鲁棒性随机次梯度方法 ——Byzantine-Robust Stochastic Aggregation (RSA) 方法，用来应对 Byzantine 工人的攻击。RSA 方法不依赖于数据是独立同分布的假设，具有更广泛的适用性。理论上，RSA 收敛到一个接近最优解的解决方案，学习错误取决于 Byzantine 工作人员数目，收敛速率与没有 Byzantine 工人的随机梯度下降方法相同。数值实验表明，RSA 具有竞争性的性能和与现有算法相比较的复杂度降低。

Nov, 2018

通过敏感性曲线最大化攻击强健的分布式学习方案

本文研究分布式学习范式的安全性问题，并提出了一种基于敏感性曲线最大化的新攻击，该攻击能够通过注入小但有效的扰动来破坏现有的鲁棒聚合方案。

Apr, 2023

拜占庭容错分布式学习：追求最优的统计速率

本文针对分布式学习中的安全问题，提出了基于中位数和截尾均值运算的两种鲁棒性分布式梯度下降算法，并证明了这些算法在强凸、非强凸和光滑非凸损失函数下均能达到次优统计误差率，并且进一步提出了一种基于中位数的分布式算法，可在一轮通信下达到与鲁棒性分布式梯度下降算法相同的最优误差率，实现更好的通信效率。

Mar, 2018

AGRO: 鲁棒优化中易错群体的对抗性发现

通过对抗性组发现的传递稳健优化来提高模型性能，并发现导致模型错误的未研究的虚假相关性。

Dec, 2022

高效通讯的分布式鲁棒性分布式学习

本文介绍了一种分布式学习算法 —— 去中心化单环梯度上升 / 下降算法（AD-GDA），以解决设备之间数据分布不均导致合作训练模型性能下降的问题，并采用压缩共识方案提高通信效率，并给出了平滑凸和非凸损失函数的收敛性保证。

May, 2022