分布式深度学习的二次同步规则

Oct, 2023

A Quadratic Synchronization Rule for Distributed Deep Learning

Xinran Gu, Kaifeng Lyu, Sanjeev Arora, Jingzhao Zhang, Longbo Huang

TL;DR使用分布式深度学习和数据并行 ism 方法，通过提出基于理论的使用二次同步规则（QSR）来动态确定本地梯度方法中的一个超参数 H 的值，以提高泛化性能。在 ImageNet 上的实验结果表明，使用 QSR 能够持续改善测试准确性，并且相比标准数据并行训练，可以显著减少训练时间并提高验证准确性。

Abstract

In distributed deep learning with data parallelism, synchronizing gradients at each training step can cause a huge communication overhead, especially when many nodes work together to train large models.

distributed deep learning data parallelism local gradient methods quadratic synchronization rule (qsr)generalization improvement

发现论文，激发创造

超球量化：面向联邦学习的通信高效 SGD

本篇研究使用超球量化算法解决联邦学习中的梯度通信效率问题，该算法提供了一种连续的折衷方案，可以在不影响梯度准确性的情况下减少通信成本。

Nov, 2019

周期平均的本地随机梯度下降：更紧密的分析和自适应同步

本文研究了一种名为 local distributed SGD 的分布式优化算法，其中数据在计算节点之间进行划分，计算节点进行本地更新，定期交换模型以进行平均化，并对其进行收敛分析，结果表明它可以大大降低通信成本并且适用性比当前理论推测的更为广泛，同时提出了一种自适应同步方案，验证理论和方案的实验结果在 AWS EC2 云和内部 GPU 集群上运行良好。

Oct, 2019

大步长同步分布式 SGD 的通信权衡

本文提出了一种名为 local-SGD 的算法，通过逐步同步而非每一步都进行通信提高了通信效率，同时在大步长情况下提供了自适应下限比较。

Apr, 2019

QSGD: 通过梯度量化和编码实现通信高效的 SGD

提出了一种名为 Quantized SGD 的压缩梯度下降的算法，使用该算法可以在降低通信代价的同时保证收敛，且在图像分类和自动语音识别等多个实验中表现优异。

Oct, 2016

基于工作者数量的通信开销仅受限于本地化随机梯度下降

本文探讨了同时跨越多个工作者并进行随机梯度下降（SGD）来加速 SGD 的方法。通过对 Local SGD 的新分析，本文证明当机器在通信变现之间进行多个本地步骤时，Local SGD 方法可以实现错误按照 $1/（nT）$ 的比例缩放，只需进行固定数量的通信，而无需不断增加通信次数。

Jun, 2020

QSync：混合设备上最小化量化的同步分布式训练

一篇关于使用 QSync 系统进行分布式混合精度训练的研究论文，采用混合设备进行数据并行的深度学习训练，通过精心设计的量化优化策略和性能优化后端，实现了提高训练效率且保持模型准确性的目标。

Jul, 2024

异步分散学习算法中的量化和本地更新

研究异步传播模型下去中心化优化算法的收敛性，提出一种称为 SwarmSGD 的变量 SGD 算法，使用多维负载平衡过程连接进行分析，并在超级计算环境中表现出比以前的去中心化算法和大批次 SGD 更好的性能。

Oct, 2019

Qsparse-local-SGD: 带量化、稀疏化和本地计算的分布式 SGD

本研究旨在提出一种具有依赖误差补偿机制的 Qsparse-local-SGD 算法，该算法采用聚合式稀疏化和量化，以及局部计算方法，并且与其他算法相比在解决大规模学习模型中的通信问题上具备潜在的优越性。

Jun, 2019

数据并行 SGD 的自适应梯度量化

通过研究发现深度模型的梯度统计在训练过程中发生变化，于是引入两种自适应量化方案 ALQ 和 AMQ，显著改善了 CIFAR-10 和 ImageNet 的验证准确率，且更具鲁棒性。

Oct, 2020

强健且通信高效的协作学习

本文提出了一种名为 QuanTimed-DSGD 的新型分布式渐进优化算法，通过调整每个节点在算法每一步中本地计算梯度的截止时间和节点间交换量化本地模型的机制来解决分布式计算中经常遇到的滞后和通信效率低的问题，数值评估结果表明该算法与最先进的分布式优化方法相比，运行时间可提速至多 3 倍。

Jul, 2019