随机梯度下降漫步
使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。
Jul, 2018
本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数,指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数,在超过 “盈亏平衡点” 之后,通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题,这对于神经网络的优化效果具有积极作用,研究这些影响对于泛化性能的影响是一个有前途的研究方向。
Feb, 2020
本文旨在正式解释当代机器学习中观察到的 SGD 快速收敛现象。我们重点观察现代学习架构是过参数化的,并且被训练用于通过将经验损失(分类和回归)驱动到接近零的插值数据。我们表明,这些插值方案允许 SGD 快速收敛,与全梯度下降迭代次数相当。对于凸损失函数,我们获得了与全梯度下降相似的 “迷你批次” SGD 的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制,并且几乎独立于数据大小。
Dec, 2017
研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017
本研究观察到现代深度网络的局部最小值不仅是平坦或尖锐,而且存在许多不对称方向。我们形式化地将这样的最小值定义为不对称山谷,并证明在不对称山谷中,偏向平面的解决方案比确切的最小值更好地推广。此外,我们还发现,批量归一化(BN)似乎是不对称山谷产生的主要原因。
Feb, 2019
研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态,揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用,通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。
Jul, 2021
本文探讨了梯度下降在高维中非凸优化领域的应用,通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现,研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用,并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。
Feb, 2022
探讨了随机梯度下降应用于深度神经网络时的动态收敛特性及其与学习率、批大小等因素对最终解的影响关系,发现学习率与批大小之比是影响 SGD 动态和解宽度的关键决定因素,并得出比值越高,解越宽且一般具有更好的泛化性能的结论。
Nov, 2017
通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值,从而导致模型泛化能力下降,而小批量方法表现更好,这可能是由于梯度估计中的固有噪声引起的,可以采用多种策略来帮助大批量方法消除这种泛化差距。
Sep, 2016