研究表明,深度神经网络模型具有很好的泛化能力,其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。
Jun, 2017
本文通过实验和理论研究了神经网络的波动,发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。
Oct, 2019
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019
本研究探索了使用对抗训练数据增强作为显式正则化技术的后果,发现这种经常使用的对抗增强技术实际上并没有导致更平的损失平面,需要重新思考对抗训练泛化以及泛化和损失平面几何之间的关系。
Jul, 2019
本文研究过参数神经网络的损失函数的数学特性,证明了当神经网络的参数数目大于数据点数目时,全局最小值点的集合通常是一个高维子流形。
Apr, 2018
研究了深度生成模型所学习的流形的黎曼几何,并提出了计算测地线和沿流形路径平行传递切向量的算法,发现这些模型学习的流形近似于零曲率,并探讨了这种现象的实际影响。
Nov, 2017
本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响,提出了一种简单的 “滤波器归一化” 方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后,利用各种可视化方法,探索网络结构如何影响损失景观,以及训练参数如何影响最小化器的形状。
Dec, 2017
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
Jul, 2023
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的 PL$^*$ 条件密切相关,这解释了(S)GD 对全局最小值的收敛,并提出了一个放松 PL$^*$ 条件的方法可应用于几乎超参数系统。
Feb, 2020
本论文探究了损失海森矩阵在多项分类任务中的演化,以了解损失曲率对训练动态的影响。结果表明,成功的模型和超参数选择能够使早期的优化轨迹避免或穿越高曲率区域并进入扁平区域,提高学习率稳定性,类似于各种训练不稳定性缓解策略最终解决神经网络优化的相同失效模式,即差的条件。
Oct, 2021