大学习率下梯度下降的特殊属性
利用梯度下降算法训练神经网络会导致产生离散时间非线性动力系统,算法步长对这些系统的收敛行为有决定性的影响并能解释实际问题中观测到的多种现象,如训练误差的恶化和深度残差网络的性能差异等。
May, 2018
该论文讨论在数据过度参数化时,第一阶段优化方案(如随机梯度下降)的性质。作者发现,当损失函数在初始点的最小邻域内具有某些属性时,迭代会以几何速率收敛于全局最优解,会以接近直接的路线从初始点到达全局最优解,其中,通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降(SGD),作者开发了新的鞅技巧,以保证 SGD 绝不会离开初始化的小邻域。
Dec, 2018
通过研究具有状态相关噪声的随机梯度下降的动态行为,我们证明了幂律动态可以比之前的动态更快地从锐化极小值中逃脱,从而提出了一种新方法来进一步提高其概括能力。
Jun, 2020
研究表明在拥有相同迭代次数的情况下,小或适中大小的batch在测试集上比非常大的batch具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的SGD动态的理论解释。
Jun, 2020
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间SGD在二次损失函数中的稳态分布,讨论了其影响,并考虑了SGD变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和Adam的二阶方法的稳态协方差等应用。
Dec, 2020
利用随机梯度下降(Stochastic Gradient Descent, SGD)算法研究了在正交数据上训练具有线性或ReLU激活函数的单神经元自编码器的动力学。我们发现对于这个非凸问题,使用恒定步长的随机初始化SGD算法可以成功找到全局最小值,但具体找到的全局最小值取决于批量大小。在全批次设置中,我们发现解是稠密的(即非稀疏的),与初始化方向非常吻合,表明特征学习很少发生。另一方面,对于任何小于样本数的批量大小,SGD会找到一个稀疏且几乎正交于初始化的全局最小值,表明随机梯度的随机性在这种情况下引起了一种不同类型的“特征选择”。此外,如果通过Hessian矩阵的迹来衡量最小值的锐度,则使用全批次梯度下降找到的最小值比使用小批量大小找到的最小值更平坦,这与先前的研究相矛盾,先前的研究认为大批量会导致更锐利的最小值。为了证明SGD使用恒定步长的收敛性,我们引入了非齐次随机游走理论中的重要工具,该工具对于独立研究可能具有重要意义。
Aug, 2023
通过对教师-学生感知器分类模型的研究,我们在B-η平面上获得了一个相图,分为三个动力学相:(i)由温度控制的噪声主导的SGD,(ii)由大步长主导的SGD和(iii)GD,这些不同相还对应着不同的泛化误差区域。有趣的是,我们的分析揭示了将相(i)和相(ii)分隔开的批次大小B*与训练集大小P呈比例,其中的指数表征了分类问题的难度。
Sep, 2023
本文提出了一种利用新的对数步长的随机梯度下降(SGD)方法的新型热重启技术,对于平滑和非凸函数,我们建立了SGD的O(1/√T)收敛速度。我们对FashionMinst,CIFAR10和CIFAR100数据集进行了全面的实现,证明了新提出的步长的高效性。此外,我们将结果与其他九种现有方法进行了比较,并证明在使用卷积神经网络(CNN)模型时,新的对数步长将CIFAR100数据集的测试准确性提高了0.9%。
Apr, 2024
神经网络的大步梯度下降(GD)训练通常包括两个不同的阶段,第一阶段中经验风险震荡,而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值(依赖于步长)的时刻。此外,我们展示了归一化边界在第二阶段几乎单调增长,证明了GD在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零,我们证明平均经验风险下降,暗示第一阶段必须在有限步骤中停止。最后,我们展示选择合适大步长的GD在经历这种阶段过渡时比单调降低风险的GD更高效。我们的分析适用于任意宽度的网络,超出了众所周知的神经切线核和平均场范围。
Jun, 2024