大规模深度学习的可伸缩实用自然梯度

Feb, 2020

大规模深度学习的可伸缩实用自然梯度

Scalable and Practical Natural Gradient for Large-Scale Deep Learning

Kazuki Osawa, Yohei Tsuji, Yuichiro Ueno, Akira Naruse, Chuan-Sheng Foo...

TL;DR本文提出了 Scalable and Practical Natural Gradient Descent（SP-NGD）算法，一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题，且能够快速收敛并达到类似一阶优化方法的泛化性能，同时可进行大规模分布式训练。实验结果表明，使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练，能够在 5.5 分钟内，使用 32768 的 mini-batch size 和 1024 个 GPU，获得 75.4% 的 top-1 验证精度；且在 873 个步骤内，即使使用极大的 mini-batch size=131072，也能够达到 74.9% 的准确率。

Abstract

Large-scale distributed training of deep neural networks results in models with worse generalization performance as a result of the increa

distributed training deep neural networks generalization performance natural gradient descent mini-batch size

发现论文，激发创造

不使用大型小批次，使用本地化 SGD

本文提出了一种后局部随机梯度下降（SGD）方法，并通过标准基准测试表明，相比大批量训练，该方法显著提高了模型的泛化性能，同时保持相同的效率和可扩展性。此外，本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。

Aug, 2018

深度学习的无逆自然梯度下降快速方法

本研究提出了一种名为 FNGD 的快速自然梯度下降方法，通过在第一个迭代周期内计算逆运算，避免了在每次迭代中计算逆运算，从而使计算复杂度接近于一阶方法。通过在图像分类和机器翻译任务上进行实证评估，证明了所提出的 FNGD 方法的高效性。

Mar, 2024

关于深度学习大批量训练的广义缩小和尖峰最小化问题

通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值，从而导致模型泛化能力下降，而小批量方法表现更好，这可能是由于梯度估计中的固有噪声引起的，可以采用多种策略来帮助大批量方法消除这种泛化差距。

Sep, 2016

精确的大型小批量随机梯度下降法：在 1 小时内训练 ImageNet

本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用，证明了通过采用新的学习率调整规则和温暖启动方法，大批量训练可以克服优化难题，取得和小批量相同的精度，实现了在支持多达 256 个 GPU 的硬件上，在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。

Jun, 2017

使用敌对式训练和二阶信息进行神经网络的大批量训练

本文提出了一种基于 Ray 框架的新型自适应批量大小框架，以及一种使用二阶方法和对抗训练的新型自适应批量大小训练方案，该方法在多个神经网络和数据集上均实现了比现有解决方案更好的效果。

Oct, 2018

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

通过梯度信噪比（GSNR）加速大批量训练

基于梯度信噪比的方差缩减梯度下降技术对大批量任务进行了快速训练动态的理论分析和泛化分析，证明了其加速训练、缩小泛化差距和提高最终精度的效果。

Sep, 2023

热力学自然梯度下降

我们展示了在大规模训练中，与一阶方法相比，具有更好收敛性质的二阶训练方法很少被使用，可能是由于计算开销过大。然而，我们通过使用适当的硬件设备，证明了某些参数区间内，自然梯度下降（NGD）这种二阶方法在每次迭代中可以具备与一阶方法类似的计算复杂度。我们提出了一种新的混合数字 - 模拟算法用于神经网络训练，该算法在某些参数范围内等效于 NGD，但避免了解线性系统代价昂贵的求解。我们的算法利用了模拟系统在热力学平衡下的性质，因此需要模拟热力学计算机。在混合数字 - 模拟循环中进行训练，梯度和费舍尔信息矩阵（或任何正定曲率矩阵）在给定的时间间隔内计算，同时进行模拟动力学。在分类任务和语言模型微调任务上，我们通过数值实验证明了这种方法相对于最先进的数字一阶和二阶训练方法的优越性。

May, 2024

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

基于 Kronecker-Factored 近似曲率的大规模分布式二阶优化在深度卷积神经网络中的应用

本文提出了使用次优化方法的替代方法，以解决深度神经网络的大规模分布式训练中可能出现的泛化差距问题，同时在基准测试中，我们的方法能够在更短的迭代次数内，就实现与一阶方法相当的泛化能力，并能够处理更大的 mini-batch。

Nov, 2018