该论文研究了大批量训练中的一般化差距现象,并提出一种名为 “Ghost Batch Normalization” 的新算法,可显著减少一般化差距而不增加权重更新数量。
May, 2017
本文提出一种基于批增广的优化算法,可以应用于深度学习的大批量 SGD 训练中,减少了必要的 SGD 更新数量,提高了训练速度和泛化能力。
Jan, 2019
通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值,从而导致模型泛化能力下降,而小批量方法表现更好,这可能是由于梯度估计中的固有噪声引起的,可以采用多种策略来帮助大批量方法消除这种泛化差距。
Sep, 2016
研究表明在拥有相同迭代次数的情况下,小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的 SGD 动态的理论解释。
Jun, 2020
本文提出了一种后局部随机梯度下降(SGD)方法,并通过标准基准测试表明,相比大批量训练,该方法显著提高了模型的泛化性能,同时保持相同的效率和可扩展性。此外,本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
Aug, 2018
本文介绍了一种新的大批量训练算法:LARS,该算法采用分层自适应速率缩放,可使得尽管使用大批量训练,Alexnet 和 Resnet-50 的准确性不会降低。
Aug, 2017
本文旨在正式解释当代机器学习中观察到的 SGD 快速收敛现象。我们重点观察现代学习架构是过参数化的,并且被训练用于通过将经验损失(分类和回归)驱动到接近零的插值数据。我们表明,这些插值方案允许 SGD 快速收敛,与全梯度下降迭代次数相当。对于凸损失函数,我们获得了与全梯度下降相似的 “迷你批次” SGD 的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制,并且几乎独立于数据大小。
Dec, 2017
研究增加小批量大小以减少神经网络训练时间所面临的挑战,并通过广泛的经验分析得出,增加批量大小超过一定点对于训练或测试损失的收敛时间没有减少,而这一点通常低于当前系统的容量,说明常用的大批量优化训练策略在无法充分利用所有可用的计算资源之前就会失败。
Nov, 2018
研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017
本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法,以维持梯度逼近的信噪比的稳定,从而实现自动学习率选择和避免步长衰减,并且不需要目标函数凸性的限制。
Oct, 2016