具任意损失函数的深度线性神经网络:所有的局部极小都是全局极小
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
本文研究深度学习中通过证明只有深度,没有非线性性质也不会产生坏局部极小值,由此大大简化了之前证明前馈深度线性神经网络所有局部极小值也是全局极小值的方法,并推广到了深度线性模型的平方误差函数以外的情形。
Feb, 2017
该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络,研究者提出了必要和充分条件,以判断风险函数的一个临界点是否为全局最小值,并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络,并在更有限的函数空间设置中证明了类似的充分条件。
Jul, 2017
本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题,从任意深度和宽度的角度证明了其对于平方误差函数的独特性,发现 “坏” 的鞍点只存在于深层网络中,给出了深度学习理论和非凸优化的合理性,但与实际应用仍有一定距离。
May, 2016
本研究探讨神经网络的损失面。结果表明,大多数情况下,即使对于具有最轻微的非线性的单隐藏层网络,经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征,统一了这个主题上的其他结果。
Feb, 2018
通过平滑分析技术,我们对具有分段线性激活函数、二次损失和单输出的多层神经网络(MNN)在可微的局部极小值处的训练损失提供保证。特别地,我们证明对于一个具有一个隐藏层的 MNN,几乎每个数据集和 dropout-like 噪声实现的每个可微局部极小值的训练误差都是零,然后将这些结果扩展到多个隐藏层的情况。我们的理论保证对训练数据几乎没有限制,并得到了数值验证。这些结果说明了为什么这些 MNN 的高度非凸损失可以通过局部更新(例如随机梯度下降)进行易于优化,这与经验证据相符。
May, 2016
本文主要探讨了对于深度模型的错误表面进行特征化的兴趣,揭示在某些条件下,深度模型的局部最小值会影响模型训练的结果,需要额外的数据前提、初始化方案和 / 或模型类来支持全局最佳解的优化。
Nov, 2016
研究表明,随机梯度下降有一个偏好于平滑最小值的隐含偏差。 本文研究发现,在具有二次损失的线性神经网络训练中,线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值,这些最小值对应着接近平衡网络。另外,相邻层的权重矩阵在平坦的极小值解中相互耦合,形成了从输入到输出的明显路径,该路径只用于体验端到端最大增益的信号。
Feb, 2020
通过证明对于任何多层网络来说,存在次优局部极小值,无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络,这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。
Nov, 2019
本文研究过参数神经网络的损失曲面的全局最小值的几何结构,证明浅层神经网络可以插值任何数据集,给出全局最小值的 Hessian 矩阵的特征表达式,并提供一种实用的概率方法寻找插值点。
Apr, 2023