本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响,提出了一种简单的 “滤波器归一化” 方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后,利用各种可视化方法,探索网络结构如何影响损失景观,以及训练参数如何影响最小化器的形状。
Dec, 2017
研究表明,深度神经网络模型具有很好的泛化能力,其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。
Jun, 2017
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019
本文研究过参数神经网络的损失函数的数学特性,证明了当神经网络的参数数目大于数据点数目时,全局最小值点的集合通常是一个高维子流形。
Apr, 2018
本研究提供了正方形损失函数的所有临界点(以及全局优化器)的解析形式的全面(必要和充分)表征,展示了实现全球最小值的必要和充分条件,并通过极小值的分析形式表征了神经网络的损失函数的景观特性。
Oct, 2017
本文通过实验和理论研究了神经网络的波动,发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。
Oct, 2019
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
Jul, 2023
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
本研究考虑学习一层隐藏层神经网络,通过高斯分布输入和低秩张量分解来优化非凸目标函数,利用随机梯度下降法可以证明收敛于全局最小值,并通过模拟实验证实。
Nov, 2017
研究发现,神经网络的能量场通常是平坦的,在极小值点之间存在足够的容量进行结构性变化,且每个极小值点至少有一个消失的 Hessian 特征值。
Mar, 2018