深度学习中消除所有不良局部极小值

Jan, 2019

深度学习中消除所有不良局部极小值

Elimination of All Bad Local Minima in Deep Learning

Kenji Kawaguchi, Leslie Pack Kaelbling

TL;DR通过添加特殊神经元，可以消除任何深度神经网络的所有次优局部极小值，并通过扰动梯度基础的必要条件对其进行分析，以及一种削弱消除局部极小值的新型故障模式。

Abstract

In this paper, we theoretically prove that adding one special neuron per output unit eliminates all suboptimal local minima of any deep neural network, for multi-class →

neural network local minima classification regression perturbable gradient basis

发现论文，激发创造

添加一个神经元可以消除所有不良局部极小值

本研究旨在探讨神经网络中非凸损失函数的分析难点，通过添加具有跳跃连接的特殊神经元或每层添加一个特殊神经元，证明了在温和的条件下，每个局部最小值都是全局最小值。

May, 2018

神经网络训练中的局部极小值

本文主要探讨了对于深度模型的错误表面进行特征化的兴趣，揭示在某些条件下，深度模型的局部最小值会影响模型训练的结果，需要额外的数据前提、初始化方案和 / 或模型类来支持全局最佳解的优化。

Nov, 2016

多层神经网络训练无坏局部最小值：针对数据的独立误差保证

通过平滑分析技术，我们对具有分段线性激活函数、二次损失和单输出的多层神经网络（MNN）在可微的局部极小值处的训练损失提供保证。特别地，我们证明对于一个具有一个隐藏层的 MNN，几乎每个数据集和 dropout-like 噪声实现的每个可微局部极小值的训练误差都是零，然后将这些结果扩展到多个隐藏层的情况。我们的理论保证对训练数据几乎没有限制，并得到了数值验证。这些结果说明了为什么这些 MNN 的高度非凸损失可以通过局部更新（例如随机梯度下降）进行易于优化，这与经验证据相符。

May, 2016

多层神经网络中指数衰减的次优局部极值

通过证明，使用具有分段线性单元、单输出和二次损失的一层隐藏层的 MNN，在标准正常输入和更现实的数量的隐藏单元情况下，可以消失指数数量的不同可微区域的的局部最小值，以及通过数值演示达到的结果，发现在 CIFAR 上只有 16 个隐藏神经元时可以达到 0％的二进制分类训练误差。

Feb, 2017

具有几乎所有非线性激活函数的神经网络存在次优局部极小值

通过证明对于任何多层网络来说，存在次优局部极小值，无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络，这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。

Nov, 2019

神经网络中激活函数的小非线性性会引起糟糕的局部最小值

本研究探讨神经网络的损失面。结果表明，大多数情况下，即使对于具有最轻微的非线性的单隐藏层网络，经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征，统一了这个主题上的其他结果。

Feb, 2018

具任意损失函数的深度线性神经网络：所有的局部极小都是全局极小

本研究考虑使用深度线性网络进行任意凸可微损失的最小化，证明了当隐藏层宽度大于等于输入层或输出层时，局部最小值等价于全局最小值，若损失函数为凸且 Lipschitz 连续但不可微，则深度线性网络可能存在次优解。

Dec, 2017

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

两层 ReLU 神经网络中的虚假局部极小值普遍存在

本文研究了如何通过过量参数方法减少 ReLU 神经网络中的假局部极小值问题，并通过集中度证明说明在高维输入空间中几乎所有有关大小的目标网络都会出现假局部极小值问题。

Dec, 2017

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017