深且宽神经网络的损失曲面
本研究考虑使用深度线性网络进行任意凸可微损失的最小化,证明了当隐藏层宽度大于等于输入层或输出层时,局部最小值等价于全局最小值,若损失函数为凸且 Lipschitz 连续但不可微,则深度线性网络可能存在次优解。
Dec, 2017
本文探讨了时下最先进神经网络的损失函数,以及常用随机梯度下降变体如何优化这些损失函数,探讨中发现每个优化算法在鞍点处会做出不同的选择,从而得出每个算法在鞍点处的特征选择假设。
Dec, 2016
该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络,研究者提出了必要和充分条件,以判断风险函数的一个临界点是否为全局最小值,并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络,并在更有限的函数空间设置中证明了类似的充分条件。
Jul, 2017
通过证明对于任何多层网络来说,存在次优局部极小值,无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络,这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。
Nov, 2019
本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题,从任意深度和宽度的角度证明了其对于平方误差函数的独特性,发现 “坏” 的鞍点只存在于深层网络中,给出了深度学习理论和非凸优化的合理性,但与实际应用仍有一定距离。
May, 2016
本研究探讨神经网络的损失面。结果表明,大多数情况下,即使对于具有最轻微的非线性的单隐藏层网络,经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征,统一了这个主题上的其他结果。
Feb, 2018
本文主要探讨了对于深度模型的错误表面进行特征化的兴趣,揭示在某些条件下,深度模型的局部最小值会影响模型训练的结果,需要额外的数据前提、初始化方案和 / 或模型类来支持全局最佳解的优化。
Nov, 2016
通过对具有 ReLU 激活函数的一层神经网络的分析,我们发现神经网络具有良好的优化特性,其具有多样的单元没有虚假局部最小值,在满足 “扩展特征矩阵” 的最小奇异值足够大的条件下,可以使损失函数变得任意小。
Nov, 2016
研究了使用共享权重和最大池化层的实用深度卷积神经网络的损失景观和表现力,发现这些 CNN 在宽层处可以产生线性独立特征,研究了获得零训练误差的全局最小值所需的必要和充分条件,分析表明,深度和宽度都很重要,宽度可以使损失函数具有很好的性质。
Oct, 2017
本文研究了具有随机权重的一层和两层神经网络在非凸损失函数情况下的学习行为,引入了宽平原(WFM)这一概念,并探索了 WFM 如何出现以及在学习中起到什么作用。
May, 2019