深度神经网络优化轨迹上的盈亏平衡点

ICLRFeb, 2020

深度神经网络优化轨迹上的盈亏平衡点

The Break-Even Point on Optimization Trajectories of Deep Neural Networks

Stanislaw Jastrzebski, Maciej Szymczak, Stanislav Fort, Devansh Arpit, Jacek Tabor...

TL;DR本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数，指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数，在超过 “盈亏平衡点” 之后，通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题，这对于神经网络的优化效果具有积极作用，研究这些影响对于泛化性能的影响是一个有前途的研究方向。

Abstract

The early phase of training of deep neural networks is critical for their final performance. In this work, we study how the hyperparameters of stochastic gradient descent (SGD) used in the early phase of training affect the rest of the →

stochastic gradient descent early-phase training neural networks optimization trajectory learning rate

发现论文，激发创造

随机梯度下降漫步

我们研究了随机梯度下降在超参数化深度神经网络的损失面上如何导航，发现学习率和批量大小在深度神经网络优化和泛化中具有不同的作用，并且 ' 在高度上在墙之间弹跳 ' 机制对于泛化至关重要。

Feb, 2018

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。

Jul, 2018

高维双层神经网络中的随机梯度下降相图

本文探讨了梯度下降在高维中非凸优化领域的应用，通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现，研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用，并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。

Feb, 2022

超参数对神经网络 SGD 训练的影响

大规模实验探索神经网络分类器的超参数及其交互作用。

Aug, 2015

神经网络上的随机梯度下降学习越来越复杂的函数

实验研究表明，Stochastic Gradient Descent 利用条件互信息学习了从线性分类器到逐渐复杂的函数的分类器，解释了超参数化区域中 SGD 学习的分类器为什么往往具有良好的泛化能力。

May, 2019

随机梯度下降的不同制度

通过对教师 - 学生感知器分类模型的研究，我们在 B-η 平面上获得了一个相图，分为三个动力学相：(i) 由温度控制的噪声主导的 SGD，(ii) 由大步长主导的 SGD 和 (iii) GD，这些不同相还对应着不同的泛化误差区域。有趣的是，我们的分析揭示了将相 (i) 和相 (ii) 分隔开的批次大小 B * 与训练集大小 P 呈比例，其中的指数表征了分类问题的难度。

Sep, 2023

存在糟糕的全局最小值，并且 SGD 可以到达它们

通过研究深度神经网络的显式正则化对随机梯度下降的作用，证实显式正则化对于高参数化的神经网络成功的贡献远比随机梯度下降方法更为重要。

Jun, 2019

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016

SGD 的极限动力学：修改的损失，相空间振荡和反常扩散

研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态，揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用，通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。

Jul, 2021

两层神经网络格势的均场视角

本论文在研究多层神经网络的优化问题，发现随机梯度下降算法会收敛到一个全局最优点，且这一点具有很好的泛化能力。结果表明，适当的尺度下，随机梯度下降动态可以通过某个非线性偏微分方程捕捉，从而证明了 SGD 的收敛性。

Apr, 2018