稳定性边缘：如何调整超参数以在神经网络异步训练中保留最小值选择？

ICLRSep, 2019

稳定性边缘：如何调整超参数以在神经网络异步训练中保留最小值选择？

At Stability's Edge: How to Adjust Hyperparameters to Preserve Minima Selection in Asynchronous Training of Neural Networks?

PDF

Niv Giladi, Mor Shpigel Nacson, Elad Hoffer, Daniel Soudry

TL;DR研究了异步训练是如何影响神经网络的动态稳定性，发现延迟的程度与学习率交互作用，可以改变异步随机梯度下降算法所能够访问的极小值集合，并推导出调整学习率的闭式规则，同时保持可访问集合不变。结果显示，对于高延迟值，学习率应该保持反比于延迟。并且扩展到动量，发现动量应该关闭或修改以提高训练稳定性。作者提供了经验实验来验证理论发现。

Abstract

Background: Recent developments have made it possible to accelerate neural networks training significantly using large batch sizes and data parallelism. Training in an asynchronous fashion, where delay occurs, can make training even more scalable. However, asynchronous training has its

asynchronous training neural networks dynamical stability learning rate momentum

发现论文，激发创造

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

异步孕育势能，应用于深度学习

本文证明，异步优化算法中添加一类类动量项，可加速训练多层神经网络，对于卷积神经网络，异步度与动量呈直线关系，故在异步执行时，动量调整得当可提升算法效率，反之也可采用相反的动量来改善结果。

May, 2016

延迟随机梯度下降的普适性理解探究

基于生成函数分析工具，我们研究了异步延迟 SGD 的泛化误差上界，结果表明异步延迟减少了延迟 SGD 算法的泛化误差。

Aug, 2023

在分布式异步环境下调控动量

提出了一种名为 DANA 的技术，旨在解决分布式异步训练的梯度走样问题，可以加速深度神经网络的训练过程且不影响最终精度。该方法在 CIFAR 和 ImageNet 数据集上表现出比现有方法更好的性能。

Jul, 2019

慢而稳定的梯度也能取得胜利

本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡，考虑到随机拖延延迟，提出了逐渐变化同步性的方法，并在 CIFAR10 数据集上表现良好。

Mar, 2020

随机梯度下降中影响最小值的三个因素

探讨了随机梯度下降应用于深度神经网络时的动态收敛特性及其与学习率、批大小等因素对最终解的影响关系，发现学习率与批大小之比是影响 SGD 动态和解宽度的关键决定因素，并得出比值越高，解越宽且一般具有更好的泛化性能的结论。

Nov, 2017

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

分布式同步 SGD 的再探讨

本文研究了分布式训练深度学习模型时采用同步优化的可行性，发现同步优化虽然会浪费一些等待时间，但采用备用工作者的方式可以避免异步噪声并加速收敛，同时能够在保证准确性的前提下提高测试准确率。

Apr, 2016

贝叶斯视角下的泛化和随机梯度下降

研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集，以及为什么随机梯度下降找到的最小值能很好地推广；探讨了小批量大小影响参数朝向大证据最小值的作用；当学习速率固定时，建议选择使测试集准确性最大化的最佳批次大小。

Oct, 2017

一种用于正则化随机优化的异步小批量算法

提出了一种异步迷你批次 (mini-batch) 正则化随机优化算法，可以消除空闲等待并允许工作节点以最大更新速率运行，适当选择步长值可实现 O (1/√T) 和 O (1/T) 的收敛速率，验证了理论结果。

May, 2015