稀疏随机图中的近似梯度编码

Nov, 2017

Approximate Gradient Coding via Sparse Random Graphs

Zachary Charles, Dimitris Papailiopoulos, Jordan Ellenberg

TL;DR通过稀疏图构建的计算简单的渐变编码可以有效增强算法对滞后节点的鲁棒性。

Abstract

distributed algorithms are often beset by the straggler effect, where the slowest compute nodes in the system dictate the overall running time. c

distributed algorithms straggler effect coding-theoretic techniques gradient coding algorithmic robustness

发现论文，激发创造

分布式学习中的滞后处理减轻随机梯度编码

本文提出了一种适用于随机拖延者的梯度编码方案（SGC），它通过一种成对平衡的设计将数据点冗余分配给工作人员，并忽略了拖延者，证明了 SGC 的收敛速度与批量随机梯度下降的收敛速度相匹配，并演示了设计中的冗余量如何改进收敛速度和处理大量拖延者。

May, 2019

梯度编码

本文提出了一个新的编码理论框架用于缓解分布式学习中的滞后问题，并使用 MPI 在 Amazon EC2 上实现了该方案，得出其在运行时间和泛化误差方面比基准方法更优秀的结论。

Dec, 2016

利用 Reed-Solomon 码改进分布式梯度下降

本文介绍了一种分布式梯度下降方法，该方法使用编码理论并考虑存在 stragglers 的情况，以恰当的机器学习问题为应用场景，理论证明了在给定机器计算能力的情况下，可以通过最少数量的机器 $f$ 通过 $O (f^2)$ 解码算法恢复梯度，并提供了一个理论模型来最小化方案参数，从而最小化期望等待时间。最终，数值实验表明了该方法的优越性。

Jun, 2017

数据编码在分布式优化中的缓解残留问题

本文提出了一种直接在数据中嵌入冗余来处理缓慢任务的新方法，通过一些编码技巧将复制数据的策略转换到线性计算过程中，从而利用节点的任意变化在没有等待慢节点的情况下完成散列计算，并通过实验结果表明此方法的优势。

Nov, 2017

基于边缘设备的分布式学习的分层梯度编码设计与优化

通过引入边缘节点作为额外的中间层，本文探讨了在分层分布式学习系统中缓解滞后效应的问题，首先推导了工作节点的计算负载和滞后者容忍度之间的基本权衡关系，然后提出了一种层级渐进编码框架，以实现所得到的计算权衡。为了在异构场景中进一步提高我们的框架性能，我们制定了一个优化问题，旨在最小化学习过程中每次迭代的预期执行时间，并设计了一种高效算法来数学求解该问题，得到最优策略。通过大量模拟结果，证明了我们的方案相对于传统解决方案的优越性。

Jun, 2024

循环 MDS 码和扩展器图的梯度编码

本文介绍梯度编码的技术，通过使用编码理论中的循环 MDS 码设计新颖的梯度编码，并引入一个近似变种，通过使用展开图的归一化邻接矩阵，实现了优秀的近似梯度编码，可以比精确梯度编码更高效地减少计算，确保更快地收敛。

Jul, 2017

通信计算高效的梯度编码

该论文提出了一种编码技术，以减少分布式学习任务的运行时间，并基于递归多项式结构提出了一种编码方案，优化了梯度计算的运行时间，同时保持相同泛化误差。

Feb, 2018

去除耗时者的分散式学习中的梯度编码

在本论文中，我们考虑了分布式学习中存在滞后问题的分散化学习问题。虽然梯度编码技术已经应用于分布式学习以规避滞后问题，其中设备发送带有冗余训练数据的编码梯度，但是直接应用这些技术到分散化学习场景中比较困难。为了解决这个问题，我们提出了一种基于流言蜚语的带有梯度编码的分散化学习方法（GOCO）。在该方法中，为了避免滞后问题的负面影响，参数向量使用基于随机梯度编码框架的编码梯度进行本地更新，并以基于流言蜚语的方式进行平均。我们分析了 GOCO 在强凸损失函数下的收敛性能，并通过仿真结果证明了所提出方法在学习性能方面相对于基准方法的优越性。

Feb, 2024

使用 LDGM 代码的分布式随机梯度下降

该论文提出了一种使用低密度生成矩阵代码的分布式随机梯度下降方案，通过该方案可以在低计算成本下得到高质量的无偏梯度估计，进而改善整体性能。

Jan, 2019

分布式优化和学习中的迟滞者减缓冗余技术

本文提出了一种分布式优化框架，通过将数据编码为过完备表示，并动态地在每次迭代中舍弃整个计算中的掉队节点，从而减少了延迟和通信传输的负担，结果表明在数据被编码的情况下，对于几种流行的优化算法，包括梯度下降、L-BFGS、在数据并行性下的近端梯度以及在模型并行性下的坐标下降，当掉队者被视为纠删码时，它们都会收敛到原始问题的近似或精确解，收敛结果是确定性的，并且与掉队分布的尾部行为无关，本研究还提出了一种用于大规模数据编码的高效机制，以及证明了用等角紧框架作为编码矩阵的理想性质，并与未编码、异步和数据复制策略进行了比较。

Mar, 2018