训练更长时间，泛化更好：在神经网络的大批量训练中缩小泛化差距

May, 2017

训练更长时间，泛化更好：在神经网络的大批量训练中缩小泛化差距

Train longer, generalize better: closing the generalization gap in large batch training of neural networks

Elad Hoffer, Itay Hubara, Daniel Soudry

TL;DR该论文研究了大批量训练中的一般化差距现象，并提出一种名为 “Ghost Batch Normalization” 的新算法，可显著减少一般化差距而不增加权重更新数量。

Abstract

Background: deep learning models are typically trained using stochastic gradient descent or one of its variants. These methods update the weights using their gradient, estimated from a small fraction of the training data. It has been observed that when using large batch sizes there is

deep learning stochastic gradient descent generalization gap large-batch training ghost batch normalization

发现论文，激发创造

关于深度学习大批量训练的广义缩小和尖峰最小化问题

通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值，从而导致模型泛化能力下降，而小批量方法表现更好，这可能是由于梯度估计中的固有噪声引起的，可以采用多种策略来帮助大批量方法消除这种泛化差距。

Sep, 2016

深度学习大批量训练中的外推

本文提出使用计算有效的外推方法来稳定优化轨迹，同时通过平滑避免锐减的局部最小值，从而解决了大批量训练数据下的模型精度退化问题并且在 ResNet、LSTM 和 Transformer 等模型下得到证明。

Jun, 2020

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

深度神经网络训练的不一致性、不稳定性和泛化差距

研究深度神经网络的泛化差距问题，发现模型不一致和不稳定性是影响泛化差距的关键因素，通过算法降低不一致性可以提高性能，并为现有方法（如协同蒸馏和集成学习）提供了理论基础。

May, 2023

贝叶斯视角下的泛化和随机梯度下降

研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集，以及为什么随机梯度下降找到的最小值能很好地推广；探讨了小批量大小影响参数朝向大证据最小值的作用；当学习速率固定时，建议选择使测试集准确性最大化的最佳批次大小。

Oct, 2017

神经网络的泛化误差的高维动态

本文通过随机矩阵理论和线性模型中的准确解，研究了使用梯度下降训练的大型神经网络的泛化动态，发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响，当自由参数的有效数量等于样本数量时，网络过度训练最严重，大小的适当调整可以减少网络过度训练，另外，高维域下，低泛化误差需要从小的初始权重开始。此外，本文还发现了两个新的现象：在梯度下降过程中存在一个冻结的权重子空间，而高维状态的统计特性可保护免受过度训练的影响。

Oct, 2017

深度网络的泛化：与起始点距离的作用

本文研究了使用随机梯度下降（SGD）训练深度神经网络为什么会导致泛化误差不随网络参数数量恶化的问题，并提出一种基于给定随机初始化的有效模型容量的概念。作者通过实验证明了 SGD 训练的深度网络的模型容量实际上受限于从初始化开始的 L2 距离的隐式正则化，并提供理论论证来进一步强调了初始化相关的模型容量概念的必要性。然而此文留下了如何以及为什么对初始化距离进行正则化，以及它是否足以解释泛化的问题。

Jan, 2019

重新审视深度神经网络的小批量训练

本文研究了基于小批量样本随机梯度优化的现代深度神经网络训练中，不同批量大小对测试性能和泛化性能的影响，并指出使用小批量训练可以提供更稳定和可靠的结果。

Apr, 2018

随机梯度下降中噪声的泛化益处

研究表明在拥有相同迭代次数的情况下，小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现，同时研究如何随着预算增长而改变最佳学习率计划，并提供一个基于随机微分方程的 SGD 动态的理论解释。

Jun, 2020

关于初始大学习率在神经网络训练中正则化作用的解释

通过大学习率 SGD 与 Annealing 方案推出二层神经网络；结果表明，相比小学习率模型，它更好地推广了不容易泛化的模式，并通过实验演示使用 CIFAR-10 图像说明了该概念。

Jul, 2019