基于联合投票的 SignSGD

Mar, 2024

SignSGD with Federated Voting

Chanho Park, H. Vincent Poor, Namyoon Lee

TL;DR分布式学习中的通信延迟问题和异构的小批量大小对收敛速度的影响，通过引入权重学习及加权多数投票的 signSGD-FV 算法进行优化，该算法具有理论上的收敛保证并在异构小批量大小下表现出更快的收敛速度。

Abstract

distributed learning is commonly used for accelerating model training by harnessing the computational capabilities of multiple-edge devices. However, in practical applications, the communication delay emerges as

distributed learning signsgd-fv communication delay mini-batch sizes convergence rate

发现论文，激发创造

使用联合防御的 SignSGD: 通过梯度标志解码来利用对抗性攻击

这篇论文研究了分布式学习方法在模型训练中的应用，针对通信延迟和收敛速度的问题提出了两种优化器：signSGD-MV 和 signSGD-FD，并通过实验结果验证了 signSGD-FD 在不同对抗攻击场景中相比传统算法具有更好的收敛速度。

Feb, 2024

具有理论保证的联邦学习随机符号 SGD

本研究提出一种基于 SIGNSGD 的方法：Stochastic-Sign SGD，它利用新颖的随机符号梯度压缩器，在分布式学习中具有收敛性、通信效率、差分隐私以及拜占庭容错等特性，并在 MNIST 和 CIFAR-10 数据集下的深度神经网络上进行了广泛的实验验证。

Feb, 2020

异构数据的分布式训练：连接中位数和基于平均值的算法

本文研究介绍了两种分布式非凸优化算法：signSGD 和 medianSGD，并发现它们在数据异构的情况下是不收敛的。作者提出了一种梯度校正机制来消除梯度的平均值和中位数之间的差异，该方法保留了这些方法的良好性质，并实现了全局收敛。此外，该文中所提的梯度校正技术在其他估计平均值的场合也有独立的应用价值。

Jun, 2019

FetchSGD: 基于草图技术的高效通信联邦学习算法

本文介绍了一种名为 FetchSGD 的算法，该算法通过使用 Count Sketch 压缩模型更新，并利用 Sketch 合并性从众多工作者中组合模型更新来克服联合学习中的通信瓶颈和因稀疏客户参与而导致的收敛问题。我们证明了 FetchSGD 具有良好的收敛性能，并通过训练两个残差网络和一个 Transformer 模型来证明其实证效果。

Jul, 2020

signSGD：非凸问题的压缩优化

signSGD 可通过传输最小批次随机梯度符号来缓解学习分布在多个 worker 上时的通信效率问题，在实际应用中，其动量对应项能够匹配 Adam 算法在深层 Imagenet 模型上的精度和收敛速度。高斯定理证明 sign-based 优化方法对于通信效率和收敛速度的提高具有巨大潜力。

Feb, 2018

高效的基于符号的优化：通过方差减少加速收敛

本文介绍了 signSGD 方法及其收敛速率的改进，并引入了基于符号的随机方差缩减（SSVR）方法，通过引入方差缩减估计器来跟踪梯度并利用其符号进行更新；此外，还研究了分布式环境中的异构多数投票，引入了两种新算法以获得更好的收敛速率，通过数值实验验证了所提方法的有效性。

Jun, 2024

分布式斯坦变分梯度下降的联合广义贝叶斯学习

本文提出了一种名为 Distributed Stein Variational Gradient Descent （DSVGD）的非参数广义贝叶斯推理框架，旨在通过维护中央服务器上的多个非随机交互粒子来最小化全局自由能，达到在通信负载和通信轮数方面的灵活权衡，并比较频率学派和贝叶斯联合学习策略，在精确度和可伸缩性方面表现出众，同时提供良好的校准性和可信度的预测。

Sep, 2020

基于无线 D2D 网络的分散联邦学习

本文提出了一种在无线边缘设备间通过分布式学习模型的联合训练方式，使用 Decentralized Stochastic Gradient Descent 协议实现设备间协同训练，通过适应路径损耗、衰落、阻挡和干扰等因素的技术，在物理层上利用稀疏基础恢复实现了无线波传输和计算的处理。

Feb, 2020

分散式联邦学习：平衡通讯与计算成本

提出一种采用分布式训练（DFL）的通用分散式最随机梯度下降（SGD）框架，它可以解决在多个节点中进行通信和本地更新的平衡，具有压缩通信和强收敛保证的特点。

Jul, 2021

联邦学习中局部下降方法的收敛性

本文旨在研究在异构样本上进行非凸优化的联邦分布式学习，具体而言，我们将分析分布式方法相对于均匀样本中的隐含方差减少特性在异构样本中的应用，并证明其在广义的非凸和条件下的收敛性与最优性.

Oct, 2019