ICLRSep, 2016

关于深度学习大批量训练的广义缩小和尖峰最小化问题

TL;DR通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值,从而导致模型泛化能力下降,而小批量方法表现更好,这可能是由于梯度估计中的固有噪声引起的,可以采用多种策略来帮助大批量方法消除这种泛化差距。