分布式学习中的滞后处理减轻随机梯度编码

May, 2019

分布式学习中的滞后处理减轻随机梯度编码

Stochastic Gradient Coding for Straggler Mitigation in Distributed Learning

Rawad Bitar, Mary Wootters, Salim El Rouayheb

TL;DR本文提出了一种适用于随机拖延者的梯度编码方案（SGC），它通过一种成对平衡的设计将数据点冗余分配给工作人员，并忽略了拖延者，证明了 SGC 的收敛速度与批量随机梯度下降的收敛速度相匹配，并演示了设计中的冗余量如何改进收敛速度和处理大量拖延者。

Abstract

We consider distributed gradient descent in the presence of stragglers. Recent work on \em gradient coding \em and \em approximate

distributed gradient descent gradient coding approximate gradient coding stochastic gradient coding stragglers

发现论文，激发创造

稀疏随机图中的近似梯度编码

通过稀疏图构建的计算简单的渐变编码可以有效增强算法对滞后节点的鲁棒性。

Nov, 2017

使用 LDGM 代码的分布式随机梯度下降

该论文提出了一种使用低密度生成矩阵代码的分布式随机梯度下降方案，通过该方案可以在低计算成本下得到高质量的无偏梯度估计，进而改善整体性能。

Jan, 2019

梯度编码

本文提出了一个新的编码理论框架用于缓解分布式学习中的滞后问题，并使用 MPI 在 Amazon EC2 上实现了该方案，得出其在运行时间和泛化误差方面比基准方法更优秀的结论。

Dec, 2016

去除耗时者的分散式学习中的梯度编码

在本论文中，我们考虑了分布式学习中存在滞后问题的分散化学习问题。虽然梯度编码技术已经应用于分布式学习以规避滞后问题，其中设备发送带有冗余训练数据的编码梯度，但是直接应用这些技术到分散化学习场景中比较困难。为了解决这个问题，我们提出了一种基于流言蜚语的带有梯度编码的分散化学习方法（GOCO）。在该方法中，为了避免滞后问题的负面影响，参数向量使用基于随机梯度编码框架的编码梯度进行本地更新，并以基于流言蜚语的方式进行平均。我们分析了 GOCO 在强凸损失函数下的收敛性能，并通过仿真结果证明了所提出方法在学习性能方面相对于基准方法的优越性。

Feb, 2024

基于 1 位梯度编码的分布式学习在滞后者存在下的应用

本文研究了分布式学习在存在迟滞节点的情况下的问题，提出了一种基于 1-bit 梯度编码的新的分布式学习方法，通过降低通信开销，在相同的通信开销下获得更好的学习性能。

Mar, 2024

利用聚类和多消息通信的梯度编码

本文介绍了一种新的梯度编码（GC）方案，结合多消息通信（MMC）和聚类，以减少因服务器慢导致的迭代时间延长问题，其能有效提高平均完成时间并降低通信负荷。

Mar, 2019

数据编码在分布式优化中的缓解残留问题

本文提出了一种直接在数据中嵌入冗余来处理缓慢任务的新方法，通过一些编码技巧将复制数据的策略转换到线性计算过程中，从而利用节点的任意变化在没有等待慢节点的情况下完成散列计算，并通过实验结果表明此方法的优势。

Nov, 2017

利用 Reed-Solomon 码改进分布式梯度下降

本文介绍了一种分布式梯度下降方法，该方法使用编码理论并考虑存在 stragglers 的情况，以恰当的机器学习问题为应用场景，理论证明了在给定机器计算能力的情况下，可以通过最少数量的机器 $f$ 通过 $O (f^2)$ 解码算法恢复梯度，并提供了一个理论模型来最小化方案参数，从而最小化期望等待时间。最终，数值实验表明了该方法的优越性。

Jun, 2017

分布式梯度方法的近似最优散乱者缓解

本研究提出了一种名为批处理优惠券集合（BCC）的分布式计算方案，以减轻梯度法中流浪者的影响，该方案在随机弱者数量接近最优时具有鲁棒性，并证明了 BCC 方案的有效性，提高了 85.4％的运行时间。此外，该方案的泛化结果证明了其能够在异构工作节点上实现梯度下降算法以最小化完成时间。

Oct, 2017

分布式优化和学习中的迟滞者减缓冗余技术

本文提出了一种分布式优化框架，通过将数据编码为过完备表示，并动态地在每次迭代中舍弃整个计算中的掉队节点，从而减少了延迟和通信传输的负担，结果表明在数据被编码的情况下，对于几种流行的优化算法，包括梯度下降、L-BFGS、在数据并行性下的近端梯度以及在模型并行性下的坐标下降，当掉队者被视为纠删码时，它们都会收敛到原始问题的近似或精确解，收敛结果是确定性的，并且与掉队分布的尾部行为无关，本研究还提出了一种用于大规模数据编码的高效机制，以及证明了用等角紧框架作为编码矩阵的理想性质，并与未编码、异步和数据复制策略进行了比较。

Mar, 2018