深度学习大批量训练中的外推

Jun, 2020

Extrapolation for Large-batch Training in Deep Learning

Tao Lin, Lingjing Kong, Sebastian U. Stich, Martin Jaggi

TL;DR本文提出使用计算有效的外推方法来稳定优化轨迹，同时通过平滑避免锐减的局部最小值，从而解决了大批量训练数据下的模型精度退化问题并且在 ResNet、LSTM 和 Transformer 等模型下得到证明。

Abstract

deep learning networks are typically trained by stochastic gradient descent (SGD) methods that iteratively improve the model parameters by estimating a gradient on a very small fraction of the training data. A ma

deep learning networks stochastic gradient descent batch size extrapolation generalization performance

发现论文，激发创造

训练更长时间，泛化更好：在神经网络的大批量训练中缩小泛化差距

该论文研究了大批量训练中的一般化差距现象，并提出一种名为 “Ghost Batch Normalization” 的新算法，可显著减少一般化差距而不增加权重更新数量。

May, 2017

增加你的批量：更大批量训练有更好效果

本文提出一种基于批增广的优化算法，可以应用于深度学习的大批量 SGD 训练中，减少了必要的 SGD 更新数量，提高了训练速度和泛化能力。

Jan, 2019

关于深度学习大批量训练的广义缩小和尖峰最小化问题

通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值，从而导致模型泛化能力下降，而小批量方法表现更好，这可能是由于梯度估计中的固有噪声引起的，可以采用多种策略来帮助大批量方法消除这种泛化差距。

Sep, 2016

随机梯度下降中噪声的泛化益处

研究表明在拥有相同迭代次数的情况下，小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现，同时研究如何随着预算增长而改变最佳学习率计划，并提供一个基于随机微分方程的 SGD 动态的理论解释。

Jun, 2020

不使用大型小批次，使用本地化 SGD

本文提出了一种后局部随机梯度下降（SGD）方法，并通过标准基准测试表明，相比大批量训练，该方法显著提高了模型的泛化性能，同时保持相同的效率和可扩展性。此外，本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。

Aug, 2018

卷积网络的大批量训练

本文介绍了一种新的大批量训练算法：LARS，该算法采用分层自适应速率缩放，可使得尽管使用大批量训练，Alexnet 和 Resnet-50 的准确性不会降低。

Aug, 2017

插值的威力：理解 SGD 在现代超参模型学习中的有效性

本文旨在正式解释当代机器学习中观察到的 SGD 快速收敛现象。我们重点观察现代学习架构是过参数化的，并且被训练用于通过将经验损失（分类和回归）驱动到接近零的插值数据。我们表明，这些插值方案允许 SGD 快速收敛，与全梯度下降迭代次数相当。对于凸损失函数，我们获得了与全梯度下降相似的 “迷你批次” SGD 的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制，并且几乎独立于数据大小。

Dec, 2017

随机梯度下降的大批量大小计算效率低下

研究增加小批量大小以减少神经网络训练时间所面临的挑战，并通过广泛的经验分析得出，增加批量大小超过一定点对于训练或测试损失的收敛时间没有减少，而这一点通常低于当前系统的容量，说明常用的大批量优化训练策略在无法充分利用所有可用的计算资源之前就会失败。

Nov, 2018

贝叶斯视角下的泛化和随机梯度下降

研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集，以及为什么随机梯度下降找到的最小值能很好地推广；探讨了小批量大小影响参数朝向大证据最小值的作用；当学习速率固定时，建议选择使测试集准确性最大化的最佳批次大小。

Oct, 2017

自适应批处理大小的自动推理：大批量 SGD

本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法，以维持梯度逼近的信噪比的稳定，从而实现自动学习率选择和避免步长衰减，并且不需要目标函数凸性的限制。

Oct, 2016