自适应异步更新的容错分散式学习

Jun, 2023

自适应异步更新的容错分散式学习

Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates

Guojun Xiong, Gang Yan, Shiqiang Wang, Jian Li

TL;DR研究提出了一种全分散的 DSGD-AAU 算法，通过自适应确定每个工作者与多少邻居工作者进行通信，实现了线性加速收敛，实验结果验证了理论结果。

Abstract

With the increasing demand for large-scale training of machine learning models, fully decentralized optimization methods have recently been advocated as alternatives to the popular parameter server framework. In

machine learning decentralized optimization methods asynchronous updates stochastic gradients deep neural network models

发现论文，激发创造

去中心化深度学习的本地异步随机梯度下降

本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步，实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。

Mar, 2022

分布式同步 SGD 的再探讨

本文研究了分布式训练深度学习模型时采用同步优化的可行性，发现同步优化虽然会浪费一些等待时间，但采用备用工作者的方式可以避免异步噪声并加速收敛，同时能够在保证准确性的前提下提高测试准确率。

Apr, 2016

异步分散并行随机梯度下降

本文提出了一种异步的分布式随机梯度下降算法（AD-PSGD）来解决异构环境下常用的同步算法（如 AllReduce-SGD）和参数服务器 suffer from 的问题，并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。

Oct, 2017

减少计算负载的快速容错分布式 SGD

该研究通过适应节点和运算负载调整方法，提高分布式随机梯度下降算法的收敛速度，显著降低计算负载，但略微增加通信负载。

Apr, 2023

弹性平均随机梯度下降的深度学习

在通信约束之下的并行计算环境下研究深度学习的随机优化问题，提出了一种新的基于弹性力的算法，可以使本地变量更加波动以允许更多的探索，同时减少了本地工作者与主节点之间的通信，从而加快了训练速度和提高了效率

Dec, 2014

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

局部更新 SGD 中的最佳错误 - 运行时间平衡的自适应通信策略

本文介绍 AdaComm，一种自适应通信策略，可以更快地训练深度神经网络，使大规模机器学习训练更 robust 且具有更快的收敛速度。

Oct, 2018

语言建模的异步局部 SGD 训练

本篇论文通过实证研究异步 Local-SGD 对训练语言模型的影响，发现异步 Local-SGD 相较于同步对应方法虽然更频繁地更新模型参数，但需要更多迭代才能达到收敛。主要挑战是在工作者梯度失效时全局参数的动量加速。提出了一种新方法，利用延迟 Nesterov 动量更新并根据计算速度调整工作者的本地训练步骤。在 C4 数据集上评估，该方法在每次更新步骤的困惑度方面与同步 Local-SGD 性能相当，并在墙钟时间方面显著超越其。

Jan, 2024

异步分布式半随机梯度优化

本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法，采用变量规约技术，可使用常量的学习率，并保证线性收敛到最优解，在 Google 云计算平台上的实验表明，该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。

Aug, 2015

AdaDelay: 延迟自适应的分布式随机凸优化

该研究探讨并分析了实际分布式计算网络情况下的延迟梯度模型，允许参数更新对实际延迟进行敏感处理以产生更大的步长，从而在保持相同渐近复杂度的同时实现更快收敛，针对包含数十亿个数据和特征的真实数据集展开分布式实验，并取得鼓舞人心的改进。

Aug, 2015