- 带有延迟的分布式随机梯度下降:基于随机延迟微分方程的框架
基于随机时滞微分方程(SDDE)和概率到达梯度泊松近似,提出了统一框架来分析和优化异步分布式随机梯度下降(ASGD)的收敛性,揭示了 ASGD 的阻尼系数、延迟统计特性和收敛条件,以及调度策略的优化。同时表明增加激活的工作人员数量并不一定加 - 扁平化一比特随机梯度下降:受控方差的压缩分布式优化
我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降(SGD)的新算法。我们的梯度压缩技术名为压平一位随机梯度下降(FO-SGD),它依赖于两个简单的算法思想:(i)利用抖动技术的一位量化过程,和(ii)在量化之前使用随机快速 - ABS-SGD:一种适用于异构 GPU 集群的带有自适应批大小的延迟同步随机梯度下降算法
我们提出了一种在异构 GPU 集群中具有自适应批大小的延迟同步随机梯度下降(ABS-SGD)算法,该算法通过全局同步来积累延迟的梯度,并使用积累的延迟梯度来更新参数,实现了计算资源的充分利用,并且在异构集群中具有收敛性。
- 拜占庭容错的随机梯度下降鲁棒分类框架
本文提出了一个 Robust Gradient Classification Framework(RGCF)用于在分布式随机梯度下降中实现拜占庭容错。该框架包括一个模式识别过滤器,我们通过仅使用梯度的方向训练它,使其能够将单个梯度分类为拜占 - ICLRIntSGD: 随机梯度的自适应无浮点压缩
本文提出一组适用于分布式随机梯度下降的自适应整数压缩算子,可通过适应性地估计向量的缩放来达到与 SGD 相同的迭代复杂度,并且也可用于 all-reduce,并在实验中取得了良好的效果。
- CSER: 带错误重置的通信有效 SGD
CSER 算法结合高压缩率技术,引入了误差重设和梯度以及模型的部分同步,可将 CIFAR-100 的分布式训练加速近 10 倍,ImageNet 加速 4.5 倍。
- 适用于异构数据的高维拜占庭鲁棒随机梯度下降
研究了在分布式随机梯度下降的标杆攻击下,通过采用异构数据模型和基于多项式时间的离群值过滤程序进行梯度的鲁棒均值估计,提出了一种新的矩阵集中结果,并且发现了在平稳强凸和非凸目标下,我们的算法可以达到和贝叶斯自由设置中的 SGF 相同的收敛速度 - 慢而稳定的梯度也能取得胜利
本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡,考虑到随机拖延延迟,提出了逐渐变化同步性的方法,并在 CIFAR10 数据集上表现良好。
- 降低通信复杂度的方差减少本地随机梯度下降
本论文提出了一种 Variance Reduced Local SGD 算法,通过消除工作人员之间的梯度方差依赖性,实现了更低的通信复杂性,以实现线性迭代加速,并在三个机器学习任务上得到了卓越的性能表现。
- 分布式深度学习中 Top-k 稀疏化的理解
本文研究了基于 Top-k 稀疏化技术的分布式随机梯度下降算法在训练深度学习模型中的通信负载问题,通过实验和理论推导,提出了更为准确的 Top-k 算子收敛性分析方法,并开发了一种 GPU 上高效的 Top-k 选取算法,提高了 TopK- - MM无线衰落信道上的联邦学习
本文研究了在无线网络边缘的联邦机器学习,其中有限功率的无线设备,每个设备具有自己的数据集,并利用远程参数服务器(PS)建立联合模型。文章提出了各种技术来实现分布式随机梯度下降(DSGD),其中包括数字 DSGD(D-DSGD)和压缩模拟 D - 无线边缘协作机器学习
研究了一种无线协作机器学习的方法,其中移动边缘设备通过带有参数服务器的无线接入点进行分布式随机梯度下降算法。提出使用模拟 DSGD 方案,利用无码方式在无线信道上传输梯度估计;通过使用多个天线来减轻破坏性的信道衰落效应,缓解了信道状态信息不 - 分布式 SGD 中的全局动量压缩
提出了一种新的名为全局动量压缩的方法,其利用稀疏通信和记忆梯度与动量随机梯度下降相结合,能够在分布式机器学习任务中显著减少通信成本,同时证明了该方法在凸问题和非凸问题中的收敛速率。
- 边缘机器学习:基于分布式随机梯度下降的空中传输
本研究在有限的功率和带宽条件下,探索了运用多个边缘设备进行分布式随机梯度下降算法的联邦机器学习,提出了 D-DSGD 和 A-DSGD 两个方法,其中 A-DSGD 采用了一项新颖的模拟方案,比 D-DSGD 更快地收敛,并表现出更好的鲁棒 - MG-WFBP: 分布式同步 SGD 算法的高效数据通信
本文提出了 MG-WFBP 算法以解决深度神经网络的分布式训练中通信问题,实验表明该算法可以比现有方法实现更好的扩展效率。
- cpSGD:通信高效和不同 ially-private 的分布式 SGD
本文探讨了在移动设备上实现通信效率和差分隐私相结合的分布式随机梯度下降算法,其中引入了 Binomial 机制以实现近似于高斯机制的效用,同时减少了表示位的数量。
- NIPS分布式深度学习的扩展方法
该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。