局部更新 SGD 中的最佳错误 - 运行时间平衡的自适应通信策略
本篇论文提出了一种新的 SGD 变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了 1B 字数据集的训练时间 30%。
Nov, 2019
本文研究了一种名为 local distributed SGD 的分布式优化算法,其中数据在计算节点之间进行划分,计算节点进行本地更新,定期交换模型以进行平均化,并对其进行收敛分析,结果表明它可以大大降低通信成本并且适用性比当前理论推测的更为广泛,同时提出了一种自适应同步方案,验证理论和方案的实验结果在 AWS EC2 云和内部 GPU 集群上运行良好。
Oct, 2019
本文提出了一个统一的框架 —— 合作 SGD (Cooperative SGD),它包含了现有的高效通信 SGD 算法,如周期平均、弹性平均和分散 SGD。通过分析 Cooperative SGD,我们为现有算法提供了新的收敛保证。此外,该框架使我们能够设计新的高效通信 SGD 算法,以在降低通信开销和实现低误差下的快速误差收敛之间取得最佳平衡。
Aug, 2018
现代深度神经网络通常需要分布式训练以应对其巨大的规模,但当工作节点数量增加时,通过每次迭代梯度同步的数据并行小批量随机梯度方法中的通信开销成为主要瓶颈。本文引入了适应性批量大小策略,用于局部梯度方法,通过自适应地增加批量大小来减小小批量梯度的方差,提供了在均匀数据条件下的收敛性保证,并通过图像分类实验支持我们的说法,证明了我们的策略在训练和泛化中的有效性。
Jun, 2024
通过学习优化器的方法,本研究证明了学习优化器在保持通信高效性的同时,能够明显优于本地 SGD 及其衍生变体,甚至在未见过的更大规模数据集、架构(如 ImageNet 和 ViTs)以及语言模型等方面具有推广性,从而展示了学习优化器改进通信高效分布式学习的潜力。
Dec, 2023
在通信约束之下的并行计算环境下研究深度学习的随机优化问题,提出了一种新的基于弹性力的算法,可以使本地变量更加波动以允许更多的探索,同时减少了本地工作者与主节点之间的通信,从而加快了训练速度和提高了效率
Dec, 2014
本文提出了 Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD) 算法,实现了计算和通信的并行处理,有效减少了通信开销,较传统分布式 SGD 算法具有更高的时间加速度,在 16 个 GPU 上的 ResNet18 和 VGG16 深度神经网络训练表现出 2-3 倍的速度提升。
Jun, 2019
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
May, 2018