利用非持久散乱者加速分布式梯度下降

Aug, 2018

利用非持久散乱者加速分布式梯度下降

Speeding Up Distributed Gradient Descent by Utilizing Non-persistent Stragglers

Emre Ozfatura, Deniz Gunduz, Sennur Ulukus

TL;DR本文介绍了一种新的分布式梯度下降计算方法，通过引入冗余计算任务实现了容错，并允许每个计算服务器在每次迭代中发送多个信息以确保最大化完成任务数量，从而显著降低了每次迭代的平均完成时间。

Abstract

distributed gradient descent (DGD) is an efficient way of implementing gradient descent (GD), especially for large data sets, by dividing the computation tasks into smaller subtasks and assigning to different computing servers (CSs) to be executed in parallel. In standard →

distributed gradient descent coded dgd techniques straggling servers parallel execution communication load

发现论文，激发创造

利用聚类和多消息通信的梯度编码

本文介绍了一种新的梯度编码（GC）方案，结合多消息通信（MMC）和聚类，以减少因服务器慢导致的迭代时间延长问题，其能有效提高平均完成时间并降低通信负荷。

Mar, 2019

减少计算负载的快速容错分布式 SGD

该研究通过适应节点和运算负载调整方法，提高分布式随机梯度下降算法的收敛速度，显著降低计算负载，但略微增加通信负载。

Apr, 2023

利用 Reed-Solomon 码改进分布式梯度下降

本文介绍了一种分布式梯度下降方法，该方法使用编码理论并考虑存在 stragglers 的情况，以恰当的机器学习问题为应用场景，理论证明了在给定机器计算能力的情况下，可以通过最少数量的机器 $f$ 通过 $O (f^2)$ 解码算法恢复梯度，并提供了一个理论模型来最小化方案参数，从而最小化期望等待时间。最终，数值实验表明了该方法的优越性。

Jun, 2017

使用 LDGM 代码的分布式随机梯度下降

该论文提出了一种使用低密度生成矩阵代码的分布式随机梯度下降方案，通过该方案可以在低计算成本下得到高质量的无偏梯度估计，进而改善整体性能。

Jan, 2019

分布式学习中的滞后处理减轻随机梯度编码

本文提出了一种适用于随机拖延者的梯度编码方案（SGC），它通过一种成对平衡的设计将数据点冗余分配给工作人员，并忽略了拖延者，证明了 SGC 的收敛速度与批量随机梯度下降的收敛速度相匹配，并演示了设计中的冗余量如何改进收敛速度和处理大量拖延者。

May, 2019

分布式梯度方法的近似最优散乱者缓解

本研究提出了一种名为批处理优惠券集合（BCC）的分布式计算方案，以减轻梯度法中流浪者的影响，该方案在随机弱者数量接近最优时具有鲁棒性，并证明了 BCC 方案的有效性，提高了 85.4％的运行时间。此外，该方案的泛化结果证明了其能够在异构工作节点上实现梯度下降算法以最小化完成时间。

Oct, 2017

Anytime 随机梯度下降：聆听所有工作者的时刻

本文提出了一种用于并行同步随机梯度下降 (SGD) 的方法，通过固定工作节点的计算时间并组合所有节点的不同贡献，优化并提高了计算效率，有效地解决了严重拖慢收敛速度的 straggler 问题。

Oct, 2018

稀疏随机图中的近似梯度编码

通过稀疏图构建的计算简单的渐变编码可以有效增强算法对滞后节点的鲁棒性。

Nov, 2017

基于 1 位梯度编码的分布式学习在滞后者存在下的应用

本文研究了分布式学习在存在迟滞节点的情况下的问题，提出了一种基于 1-bit 梯度编码的新的分布式学习方法，通过降低通信开销，在相同的通信开销下获得更好的学习性能。

Mar, 2024

慢而稳定的梯度也能取得胜利

本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡，考虑到随机拖延延迟，提出了逐渐变化同步性的方法，并在 CIFAR10 数据集上表现良好。

Mar, 2020