深度学习中消除所有不良局部极小值
本研究旨在探讨神经网络中非凸损失函数的分析难点,通过添加具有跳跃连接的特殊神经元或每层添加一个特殊神经元,证明了在温和的条件下,每个局部最小值都是全局最小值。
May, 2018
本文主要探讨了对于深度模型的错误表面进行特征化的兴趣,揭示在某些条件下,深度模型的局部最小值会影响模型训练的结果,需要额外的数据前提、初始化方案和 / 或模型类来支持全局最佳解的优化。
Nov, 2016
通过平滑分析技术,我们对具有分段线性激活函数、二次损失和单输出的多层神经网络(MNN)在可微的局部极小值处的训练损失提供保证。特别地,我们证明对于一个具有一个隐藏层的 MNN,几乎每个数据集和 dropout-like 噪声实现的每个可微局部极小值的训练误差都是零,然后将这些结果扩展到多个隐藏层的情况。我们的理论保证对训练数据几乎没有限制,并得到了数值验证。这些结果说明了为什么这些 MNN 的高度非凸损失可以通过局部更新(例如随机梯度下降)进行易于优化,这与经验证据相符。
May, 2016
通过证明,使用具有分段线性单元、单输出和二次损失的一层隐藏层的 MNN,在标准正常输入和更现实的数量的隐藏单元情况下,可以消失指数数量的不同可微区域的的局部最小值,以及通过数值演示达到的结果,发现在 CIFAR 上只有 16 个隐藏神经元时可以达到 0%的二进制分类训练误差。
Feb, 2017
通过证明对于任何多层网络来说,存在次优局部极小值,无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络,这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。
Nov, 2019
本研究探讨神经网络的损失面。结果表明,大多数情况下,即使对于具有最轻微的非线性的单隐藏层网络,经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征,统一了这个主题上的其他结果。
Feb, 2018
本研究考虑使用深度线性网络进行任意凸可微损失的最小化,证明了当隐藏层宽度大于等于输入层或输出层时,局部最小值等价于全局最小值,若损失函数为凸且 Lipschitz 连续但不可微,则深度线性网络可能存在次优解。
Dec, 2017
本文研究了如何通过过量参数方法减少 ReLU 神经网络中的假局部极小值问题,并通过集中度证明说明在高维输入空间中几乎所有有关大小的目标网络都会出现假局部极小值问题。
Dec, 2017
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017