损失函数中存在奇异点

Jan, 2022

There is a Singularity in the Loss Landscape

Mark Lowell

TL;DR通过实验证明，随着数据集的规模增大，损失梯度的大小会形成一个奇点，梯度下降算法将迅速将神经网络接近该奇点，并且进一步的训练发生在该奇点附近。该奇点解释了神经网络损失函数 Hessian 矩阵的各种现象，如在稳定性的边缘进行训练和梯度在顶部子空间中的集中。一旦神经网络接近奇点，顶部子空间对学习的贡献很小，即使它构成了大部分梯度。

Abstract

Despite the widespread adoption of neural networks, their training dynamics remain poorly understood. We show experimentally that as the size of the dataset increases, a point forms where the magnitude of the gra

neural networks training dynamics gradient descent loss functions singularity

发现论文，激发创造

大学习率训练的不稳定性：一个损失景观视角

该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵，研究了损失函数空间，揭示了梯度下降的不稳定性，且观察到了景观平坦化和景观移位的引人注目现象，这两者与训练的不稳定性密切相关。

Jul, 2023

神经网络梯度下降通常发生在稳定边缘

本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下，训练损失 Hessian 的最大特征值略高于数值 $2/ ext {(步长)}$，训练损失在短时间内呈现非单调行为，但在长时间尺度上保持下降态势。鉴于这种行为与优化领域中的一些传统观念不一致，我们的发现提出了关于这些观念是否与神经网络训练 relevant 的质疑。我们希望我们的研究能够激发未来针对稳定性边缘优化问题的进一步研究。

Feb, 2021

深度学习中的 Hessian 矩阵特征值：奇异性与超出

本文研究了损失函数的海森矩阵特征值在训练前后的分布情况，发现其主要由分布在零附近的 bulk 和分布远离零的 edges 两部分组成，bulk 部分实验证明了系统的超参数问题，而 edges 部分则与输入数据相关。

Nov, 2016

大学习速率下梯度下降的稳定性

在本文中，我们证明了在使用二次损失函数优化的线性神经网络中，梯度下降映射是非奇异的，损失函数的全局极小化集合形成平滑流形，并且稳定的极小值在参数空间中形成有界子集。另外，我们证明了如果步长过大，则使梯度下降收敛到临界点的初始化集合的测度为零。

Feb, 2024

深度学习训练不稳定性的损失曲率视角

本论文探究了损失海森矩阵在多项分类任务中的演化，以了解损失曲率对训练动态的影响。结果表明，成功的模型和超参数选择能够使早期的优化轨迹避免或穿越高曲率区域并进入扁平区域，提高学习率稳定性，类似于各种训练不稳定性缓解策略最终解决神经网络优化的相同失效模式，即差的条件。

Oct, 2021

神经网络损失函数的大尺度结构

本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性，其中高维度发挥了关键作用，通过将损失函数的空间看作是一系列高维楔形图的集合，揭示了优化算法收敛过程的内在规律，最终还研究了一些深度网络的集成技术。

Jun, 2019

神经损失景观的局部几何的新兴特性

本文通过实验和理论研究了神经网络的波动，发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。

Oct, 2019

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。

Jul, 2018

深度神经网络优化轨迹上的盈亏平衡点

本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数，指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数，在超过 “盈亏平衡点” 之后，通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题，这对于神经网络的优化效果具有积极作用，研究这些影响对于泛化性能的影响是一个有前途的研究方向。

Feb, 2020

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016