分布式优化的无偏单尺度和多尺度量化器
本文提出了一种用于降低分布式深度学习通信开销的方法,通过延迟梯度更新以使得梯度可以在计算出高幅度、低方差的梯度后进行。在实验中,我们证明了该方法能够在保持模型准确性的同时实现非常高的压缩比,并分析了使用计算模型和通信模型的效率,提供了该方法能够实现在许多场景下使用基础设施的证据。
Feb, 2018
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文提出了一种名为 DIANA 的新型分布式学习方法,通过压缩梯度差异解决了模型更新通信瓶颈的问题,并且在强凸和非凸设置中进行了理论分析,结果表明 DIANA 的收敛速度优于现有方法。
Jan, 2019
提出了一种基于Nesterov的动量的分布式压缩的SGD方法,通过两种方式压缩梯度并将梯度分块,每个梯度块都以1位格式进行压缩和传输,并实现了近32倍的通信降低,实验表明该方法与精度相同的动量SGD收敛速度相同,并在分布式ResNet训练中达到与全精度梯度动量SGD相同的测试精度,而时间缩短了46%。
May, 2019
本文研究了梯度压缩方法以缓解数据并行分布式优化中的通信瓶颈,提出了一种基于幂迭代的新型低秩梯度压缩器,在快速压缩梯度、高效聚合压缩梯度并且在测试性能上与随机梯度下降(SGD)相当的情况下实现了持续的加速,该算法是唯一评估的方法,与具有优化的通信后端的常规SGD进行基准测试时实现了一致的挂钟加速,并且在常见数据集上展示了卷积网络以及LSTM的训练时间缩短。
May, 2019
本文研究比较了两种标准的数据压缩方法:分布式量化SGD和分布式SGD反馈错误的压缩机在非独立同分布数据集的训练效果,结果表明,后者比前者更适合非独立同分布数据,但两种方法都会因为数据分布的不均匀而变慢。文中还提出一种对于强凸问题有效的方法和适用于线性压缩器的更通用的方法。
Sep, 2020
为了解决同步数据并行训练中的通信瓶颈,本研究评估了梯度压缩方法的有效性,并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现,仅有 6 种情况下,梯度压缩方法提供了速度优势。本研究提出了一种性能模型,用于确定在各种系统设置中梯度压缩的益处,并提出了一些理想的梯度压缩方法的性质列表,以获得有意义的综合优势。
Feb, 2021
本文介绍了一种新的全局比例缩放量化算子 Global-QSGD,用于加速分布式训练。Global-QSGD 是第一个在所有约束条件下都可证明加速分布式训练的压缩机制,它通过在压缩误差和通信节省之间取得平衡来实现其加速效果,并且不需要昂贵的误差反馈。同时,文章还对通信效率在硬件配置方面的优化进行了大量的理论和实验评估。
May, 2023
本研究提出了一种名为ACP-SGD的梯度压缩方法,可以加速分布式训练并具有三种甚至更优秀的系统优化技术,与S-SGD相比,优化后的ACP-SGD在减少压缩和通信开支的同时,能够实现相似的模型准确性。
Jun, 2023
我们提出了一种专门针对重尾梯度进行压缩的新方案,该方案将梯度截断和量化有效地结合在一起,并在通信受限的分布式随机梯度下降框架中进行了巧妙实现,我们通过理论分析和与其他基准的比较实验证明了该方法在管理分布式学习环境中的重尾梯度方面的有效性。
Feb, 2024