小批量处理对二阶优化器的泛化性能有所改善

May, 2023

小批量处理对二阶优化器的泛化性能有所改善

Minibatching Offers Improved Generalization Performance for Second Order Optimizers

Eric Silk, Swarnita Chakraborty, Nairanjana Dasgupta, Anand D. Sarwate, Andrew Lumsdaine...

TL;DR深度神经网络的训练对计算资源消耗较大，为了提高性能，机器学习科学家通常使用随机一阶及二阶优化方法，通过经验研究发现，训练中的批大小对方法的最大准确率有显著影响，并且二阶优化方法在特定批大小下表现出更低的方差，可能需要更少的超参数调整，从而减少了模型训练的总体时间。

Abstract

Training deep neural networks (DNNs) used in modern machine learning is computationally expensive. Machine learning scientists, therefore, rely on stochastic first-order methods for training, coupled with signifi

deep neural networks stochastic first-order methods second-order methods batch size hyperparameter tuning

发现论文，激发创造

二阶信息增强方差减少梯度中的小批量鲁棒性

对有限和最小化问题，我们展示了在目标函数中引入部分二阶信息可以显著提高方差减小的随机梯度方法对小批量大小的稳健性，从而使其在保留传统牛顿类型方法的优势的同时更具可伸缩性。

Apr, 2024

线性时间内的机器学习二阶随机优化

本文提出了一种可以匹配第一阶段方法迭代成本的机器学习优化问题的二阶随机方法，具有线性时间实现的稀疏输入数据。

Feb, 2016

深度学习可扩展的二阶优化

本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Feb, 2020

使用敌对式训练和二阶信息进行神经网络的大批量训练

本文提出了一种基于 Ray 框架的新型自适应批量大小框架，以及一种使用二阶方法和对抗训练的新型自适应批量大小训练方案，该方法在多个神经网络和数据集上均实现了比现有解决方案更好的效果。

Oct, 2018

基于 Kronecker-Factored 近似曲率的大规模分布式二阶优化在深度卷积神经网络中的应用

本文提出了使用次优化方法的替代方法，以解决深度神经网络的大规模分布式训练中可能出现的泛化差距问题，同时在基准测试中，我们的方法能够在更短的迭代次数内，就实现与一阶方法相当的泛化能力，并能够处理更大的 mini-batch。

Nov, 2018

关于参数化的二阶优化方法适用于无限宽度

通过提出一种特定的参数化方式，我们通过一步更新梯度和合适的超参数尺度来提高特征学习的鲁棒性，从而在大规模模型中加速深度神经网络的训练，并实现了更高的泛化性能。

Dec, 2023

不使用大型小批次，使用本地化 SGD

本文提出了一种后局部随机梯度下降（SGD）方法，并通过标准基准测试表明，相比大批量训练，该方法显著提高了模型的泛化性能，同时保持相同的效率和可扩展性。此外，本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。

Aug, 2018

贝叶斯视角下的泛化和随机梯度下降

研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集，以及为什么随机梯度下降找到的最小值能很好地推广；探讨了小批量大小影响参数朝向大证据最小值的作用；当学习速率固定时，建议选择使测试集准确性最大化的最佳批次大小。

Oct, 2017

重新审视深度神经网络的小批量训练

本文研究了基于小批量样本随机梯度优化的现代深度神经网络训练中，不同批量大小对测试性能和泛化性能的影响，并指出使用小批量训练可以提供更稳定和可靠的结果。

Apr, 2018

神经网络快速训练的在线批量选择

这篇研究探讨了深度神经网路的随机非凸优化方法中，通过在线选择 “分组数据量”（Batch）来加速学习的策略，提出了一种基于最新数据偏差排名的算法，并在 MNIST 数据集上实验证明，可以加速 AdaDelta 和 Adam 等方法的学习效率。

Nov, 2015