分段线性激活显著地塑造了神经网络的损失曲面
本研究探讨神经网络的损失面。结果表明,大多数情况下,即使对于具有最轻微的非线性的单隐藏层网络,经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征,统一了这个主题上的其他结果。
Feb, 2018
通过平滑分析技术,我们对具有分段线性激活函数、二次损失和单输出的多层神经网络(MNN)在可微的局部极小值处的训练损失提供保证。特别地,我们证明对于一个具有一个隐藏层的 MNN,几乎每个数据集和 dropout-like 噪声实现的每个可微局部极小值的训练误差都是零,然后将这些结果扩展到多个隐藏层的情况。我们的理论保证对训练数据几乎没有限制,并得到了数值验证。这些结果说明了为什么这些 MNN 的高度非凸损失可以通过局部更新(例如随机梯度下降)进行易于优化,这与经验证据相符。
May, 2016
通过证明对于任何多层网络来说,存在次优局部极小值,无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络,这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。
Nov, 2019
通过谐波分析,证明了多数情况下,神经网络丧失了与具体雅可比的联系,只留下非可微的极小值,这是研究 ReLU 网络损失时的核心问题,因此需要使用非光滑分析技术来研究这些损失表面。
Dec, 2017
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
通过对具有 ReLU 激活函数的一层神经网络的分析,我们发现神经网络具有良好的优化特性,其具有多样的单元没有虚假局部最小值,在满足 “扩展特征矩阵” 的最小奇异值足够大的条件下,可以使损失函数变得任意小。
Nov, 2016
通过对多层神经网络中的损失函数的拓扑度量,研究比较深层和浅层架构的复杂性以及其受隐藏单元数量、训练模型和激活函数的影响,揭示了一些特定情况下,添加正则项或在前馈网络中实施跳跃连接等对损失拓扑没有影响。
Jan, 2024
该研究表明,具有分段线性激活函数的一类深度超参数神经网络的每个子级别集都是连通且无界的,从而意味着该损失函数没有不良的局部最小值,并且所有的全局最小值都位于唯一且可能非常大的全局最优解中。
Jan, 2019
本研究考虑使用深度线性网络进行任意凸可微损失的最小化,证明了当隐藏层宽度大于等于输入层或输出层时,局部最小值等价于全局最小值,若损失函数为凸且 Lipschitz 连续但不可微,则深度线性网络可能存在次优解。
Dec, 2017