基于 Kronecker-Factored 近似曲率的大规模分布式二阶优化在深度卷积神经网络中的应用

CVPRNov, 2018

Large-Scale Distributed Second-Order Optimization Using Kronecker-Factored Approximate Curvature for Deep Convolutional Neural Networks

Kazuki Osawa, Yohei Tsuji, Yuichiro Ueno, Akira Naruse, Rio Yokota...

TL;DR本文提出了使用次优化方法的替代方法，以解决深度神经网络的大规模分布式训练中可能出现的泛化差距问题，同时在基准测试中，我们的方法能够在更短的迭代次数内，就实现与一阶方法相当的泛化能力，并能够处理更大的 mini-batch。

Abstract

Large-scale distributed training of deep neural networks suffer from the generalization gap caused by the increase in the effective mini-batch si

发现论文，激发创造

本文挑战了广泛持有的信念，发现由于其近似，Kronecker-Factored 是不与二阶更新密切相关的，并且在计算代价和数据效率方面往往优于此类更新算法，同时提出证据表明 KFAC 逼近第一阶算法（对神经元进行梯度下降），而非权重，为令人惊讶的结果。

Jan, 2022

提出了 Krondocker 因式近似曲率法（KFAC）来降低计算成本，使得 PINN 模型能够扩展到更大的网络规模。此方法在小规模问题上与昂贵的二阶方法竞争，对于更高维度的神经网络和 PDEs 有更好的扩展能力，并持续优于一阶方法和 LBFGS。

May, 2024

本文提出了一种基于 Ray 框架的新型自适应批量大小框架，以及一种使用二阶方法和对抗训练的新型自适应批量大小训练方案，该方法在多个神经网络和数据集上均实现了比现有解决方案更好的效果。

Oct, 2018

本文介绍了一种新的大批量训练算法：LARS，该算法采用分层自适应速率缩放，可使得尽管使用大批量训练，Alexnet 和 Resnet-50 的准确性不会降低。

Aug, 2017

通过提出一种特定的参数化方式，我们通过一步更新梯度和合适的超参数尺度来提高特征学习的鲁棒性，从而在大规模模型中加速深度神经网络的训练，并实现了更高的泛化性能。

Dec, 2023

本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Feb, 2020

使用 K-FAC 方法优化神经网络架构中的线性权重共享层，在不同的设置下展开和缩小两种变体都能加快训练速度，缩减了计算成本并提升了训练效果。

Nov, 2023

深度神经网络的训练对计算资源消耗较大，为了提高性能，机器学习科学家通常使用随机一阶及二阶优化方法，通过经验研究发现，训练中的批大小对方法的最大准确率有显著影响，并且二阶优化方法在特定批大小下表现出更低的方差，可能需要更少的超参数调整，从而减少了模型训练的总体时间。

May, 2023

我们提出了一种新的逐层自适应步长过程，用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题，并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。

May, 2023

本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用，证明了通过采用新的学习率调整规则和温暖启动方法，大批量训练可以克服优化难题，取得和小批量相同的精度，实现了在支持多达 256 个 GPU 的硬件上，在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。

Jun, 2017