随机梯度下降漫步

Feb, 2018

A Walk with SGD

Chen Xing, Devansh Arpit, Christos Tsirigotis, Yoshua Bengio

TL;DR我们研究了随机梯度下降在超参数化深度神经网络的损失面上如何导航，发现学习率和批量大小在深度神经网络优化和泛化中具有不同的作用，并且 ' 在高度上在墙之间弹跳 ' 机制对于泛化至关重要。

Abstract

We present novel empirical observations regarding how stochastic gradient descent (SGD) navigates the loss landscape of over-parametrized deep neural networks (DNNs). These observations expose the qualitatively different roles of learning rate and batch-size in →

stochastic gradient descent deep neural networks dnn optimization learning rate batch size

发现论文，激发创造

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。

Jul, 2018

深度神经网络优化轨迹上的盈亏平衡点

本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数，指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数，在超过 “盈亏平衡点” 之后，通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题，这对于神经网络的优化效果具有积极作用，研究这些影响对于泛化性能的影响是一个有前途的研究方向。

Feb, 2020

插值的威力：理解 SGD 在现代超参模型学习中的有效性

本文旨在正式解释当代机器学习中观察到的 SGD 快速收敛现象。我们重点观察现代学习架构是过参数化的，并且被训练用于通过将经验损失（分类和回归）驱动到接近零的插值数据。我们表明，这些插值方案允许 SGD 快速收敛，与全梯度下降迭代次数相当。对于凸损失函数，我们获得了与全梯度下降相似的 “迷你批次” SGD 的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制，并且几乎独立于数据大小。

Dec, 2017

贝叶斯视角下的泛化和随机梯度下降

研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集，以及为什么随机梯度下降找到的最小值能很好地推广；探讨了小批量大小影响参数朝向大证据最小值的作用；当学习速率固定时，建议选择使测试集准确性最大化的最佳批次大小。

Oct, 2017

非对称山谷：突出和平坦局部极值之外

本研究观察到现代深度网络的局部最小值不仅是平坦或尖锐，而且存在许多不对称方向。我们形式化地将这样的最小值定义为不对称山谷，并证明在不对称山谷中，偏向平面的解决方案比确切的最小值更好地推广。此外，我们还发现，批量归一化（BN）似乎是不对称山谷产生的主要原因。

Feb, 2019

SGD 的极限动力学：修改的损失，相空间振荡和反常扩散

研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态，揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用，通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。

Jul, 2021

高维双层神经网络中的随机梯度下降相图

本文探讨了梯度下降在高维中非凸优化领域的应用，通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现，研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用，并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。

Feb, 2022

随机梯度下降中影响最小值的三个因素

探讨了随机梯度下降应用于深度神经网络时的动态收敛特性及其与学习率、批大小等因素对最终解的影响关系，发现学习率与批大小之比是影响 SGD 动态和解宽度的关键决定因素，并得出比值越高，解越宽且一般具有更好的泛化性能的结论。

Nov, 2017

关于深度学习大批量训练的广义缩小和尖峰最小化问题

通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值，从而导致模型泛化能力下降，而小批量方法表现更好，这可能是由于梯度估计中的固有噪声引起的，可以采用多种策略来帮助大批量方法消除这种泛化差距。

Sep, 2016

随机梯度下降的噪声几何：定量和分析性特征化

本文对超参数化线性模型和两层神经网络的噪声几何进行全面的理论研究，揭示了随机梯度下降在逃离尖锐极小值时存在沿平坦方向的显著分量。

Oct, 2023