本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步,实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。
Mar, 2022
本文研究了分布式训练深度学习模型时采用同步优化的可行性,发现同步优化虽然会浪费一些等待时间,但采用备用工作者的方式可以避免异步噪声并加速收敛,同时能够在保证准确性的前提下提高测试准确率。
Apr, 2016
本文提出了一种异步的分布式随机梯度下降算法(AD-PSGD)来解决异构环境下常用的同步算法(如 AllReduce-SGD)和参数服务器 suffer from 的问题,并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。
Oct, 2017
该研究通过适应节点和运算负载调整方法,提高分布式随机梯度下降算法的收敛速度,显著降低计算负载,但略微增加通信负载。
Apr, 2023
在通信约束之下的并行计算环境下研究深度学习的随机优化问题,提出了一种新的基于弹性力的算法,可以使本地变量更加波动以允许更多的探索,同时减少了本地工作者与主节点之间的通信,从而加快了训练速度和提高了效率
Dec, 2014
本文提出了一种改进的异步 SGD 算法,通过梯度陈旧程度对学习速率进行调节,以提高其稳定性和收敛速度,在 CIFAR10 和 Imagenet 数据集上进行了实验验证,并证明了该算法的优越性。
Nov, 2015
本文介绍 AdaComm,一种自适应通信策略,可以更快地训练深度神经网络,使大规模机器学习训练更 robust 且具有更快的收敛速度。
Oct, 2018
本篇论文通过实证研究异步 Local-SGD 对训练语言模型的影响,发现异步 Local-SGD 相较于同步对应方法虽然更频繁地更新模型参数,但需要更多迭代才能达到收敛。主要挑战是在工作者梯度失效时全局参数的动量加速。提出了一种新方法,利用延迟 Nesterov 动量更新并根据计算速度调整工作者的本地训练步骤。在 C4 数据集上评估,该方法在每次更新步骤的困惑度方面与同步 Local-SGD 性能相当,并在墙钟时间方面显著超越其。
Jan, 2024
本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
该研究探讨并分析了实际分布式计算网络情况下的延迟梯度模型,允许参数更新对实际延迟进行敏感处理以产生更大的步长,从而在保持相同渐近复杂度的同时实现更快收敛,针对包含数十亿个数据和特征的真实数据集展开分布式实验,并取得鼓舞人心的改进。