梯度编码

Dec, 2016

Gradient Coding

Rashish Tandon, Qi Lei, Alexandros G. Dimakis, Nikos Karampatziakis

TL;DR本文提出了一个新的编码理论框架用于缓解分布式学习中的滞后问题，并使用MPI在Amazon EC2上实现了该方案，得出其在运行时间和泛化误差方面比基准方法更优秀的结论。

Abstract

We propose a novel coding theoretic framework for mitigating stragglers in distributed learning. We show how carefully replicating data bl

发现论文，激发创造

数据编码在分布式优化中的缓解残留问题

本文提出了一种直接在数据中嵌入冗余来处理缓慢任务的新方法，通过一些编码技巧将复制数据的策略转换到线性计算过程中，从而利用节点的任意变化在没有等待慢节点的情况下完成散列计算，并通过实验结果表明此方法的优势。

Nov, 2017

稀疏随机图中的近似梯度编码

通过稀疏图构建的计算简单的渐变编码可以有效增强算法对滞后节点的鲁棒性。

Nov, 2017

通信计算高效的梯度编码

该论文提出了一种编码技术，以减少分布式学习任务的运行时间，并基于递归多项式结构提出了一种编码方案，优化了梯度计算的运行时间，同时保持相同泛化误差。

Feb, 2018

分布式优化和学习中的迟滞者减缓冗余技术

本文提出了一种分布式优化框架，通过将数据编码为过完备表示，并动态地在每次迭代中舍弃整个计算中的掉队节点，从而减少了延迟和通信传输的负担，结果表明在数据被编码的情况下，对于几种流行的优化算法，包括梯度下降、L-BFGS、在数据并行性下的近端梯度以及在模型并行性下的坐标下降，当掉队者被视为纠删码时，它们都会收敛到原始问题的近似或精确解，收敛结果是确定性的，并且与掉队分布的尾部行为无关，本研究还提出了一种用于大规模数据编码的高效机制，以及证明了用等角紧框架作为编码矩阵的理想性质，并与未编码、异步和数据复制策略进行了比较。

Mar, 2018

利用聚类和多消息通信的梯度编码

本文介绍了一种新的梯度编码（GC）方案，结合多消息通信（MMC）和聚类，以减少因服务器慢导致的迭代时间延长问题，其能有效提高平均完成时间并降低通信负荷。

Mar, 2019

分布式训练系统中梯度压缩的效用

为了解决同步数据并行训练中的通信瓶颈，本研究评估了梯度压缩方法的有效性，并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现，仅有 6 种情况下，梯度压缩方法提供了速度优势。本研究提出了一种性能模型，用于确定在各种系统设置中梯度压缩的益处，并提出了一些理想的梯度压缩方法的性质列表，以获得有意义的综合优势。

Feb, 2021

压缩异步梯度下降的轻量级投影导数编码

该论文提出了一种新的算法，利用编码理论将局部导数进行编码和压缩，用于解决大规模数据集梯度下降过程中的延迟和其他故障。

Jan, 2022

去除耗时者的分散式学习中的梯度编码

在本论文中，我们考虑了分布式学习中存在滞后问题的分散化学习问题。虽然梯度编码技术已经应用于分布式学习以规避滞后问题，其中设备发送带有冗余训练数据的编码梯度，但是直接应用这些技术到分散化学习场景中比较困难。为了解决这个问题，我们提出了一种基于流言蜚语的带有梯度编码的分散化学习方法（GOCO）。在该方法中，为了避免滞后问题的负面影响，参数向量使用基于随机梯度编码框架的编码梯度进行本地更新，并以基于流言蜚语的方式进行平均。我们分析了GOCO在强凸损失函数下的收敛性能，并通过仿真结果证明了所提出方法在学习性能方面相对于基准方法的优越性。

Feb, 2024

基于 1 位梯度编码的分布式学习在滞后者存在下的应用

本文研究了分布式学习在存在迟滞节点的情况下的问题，提出了一种基于1-bit梯度编码的新的分布式学习方法，通过降低通信开销，在相同的通信开销下获得更好的学习性能。

Mar, 2024

基于边缘设备的分布式学习的分层梯度编码设计与优化

通过引入边缘节点作为额外的中间层，本文探讨了在分层分布式学习系统中缓解滞后效应的问题，首先推导了工作节点的计算负载和滞后者容忍度之间的基本权衡关系，然后提出了一种层级渐进编码框架，以实现所得到的计算权衡。为了在异构场景中进一步提高我们的框架性能，我们制定了一个优化问题，旨在最小化学习过程中每次迭代的预期执行时间，并设计了一种高效算法来数学求解该问题，得到最优策略。通过大量模拟结果，证明了我们的方案相对于传统解决方案的优越性。

Jun, 2024