具任意损失函数的深度线性神经网络：所有的局部极小都是全局极小

Dec, 2017

具任意损失函数的深度线性神经网络：所有的局部极小都是全局极小

Deep linear neural networks with arbitrary loss: All local minima are global

Thomas Laurent, James von Brecht

TL;DR本研究考虑使用深度线性网络进行任意凸可微损失的最小化，证明了当隐藏层宽度大于等于输入层或输出层时，局部最小值等价于全局最小值，若损失函数为凸且 Lipschitz 连续但不可微，则深度线性网络可能存在次优解。

Abstract

We consider deep linear networks with arbitrary convex differentiable loss. We provide a short and elementary proof of the fact that all local minima are →

deep linear networks convex differentiable loss global minima input layer output layer

发现论文，激发创造

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

深度不会导致糟糕的局部极小值

本文研究深度学习中通过证明只有深度，没有非线性性质也不会产生坏局部极小值，由此大大简化了之前证明前馈深度线性神经网络所有局部极小值也是全局极小值的方法，并推广到了深度线性模型的平方误差函数以外的情形。

Feb, 2017

深度神经网络的全局最优条件

该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络，研究者提出了必要和充分条件，以判断风险函数的一个临界点是否为全局最小值，并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络，并在更有限的函数空间设置中证明了类似的充分条件。

Jul, 2017

无劣局部极小值的深度学习

本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题，从任意深度和宽度的角度证明了其对于平方误差函数的独特性，发现 “坏” 的鞍点只存在于深层网络中，给出了深度学习理论和非凸优化的合理性，但与实际应用仍有一定距离。

May, 2016

神经网络中激活函数的小非线性性会引起糟糕的局部最小值

本研究探讨神经网络的损失面。结果表明，大多数情况下，即使对于具有最轻微的非线性的单隐藏层网络，经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征，统一了这个主题上的其他结果。

Feb, 2018

多层神经网络训练无坏局部最小值：针对数据的独立误差保证

通过平滑分析技术，我们对具有分段线性激活函数、二次损失和单输出的多层神经网络（MNN）在可微的局部极小值处的训练损失提供保证。特别地，我们证明对于一个具有一个隐藏层的 MNN，几乎每个数据集和 dropout-like 噪声实现的每个可微局部极小值的训练误差都是零，然后将这些结果扩展到多个隐藏层的情况。我们的理论保证对训练数据几乎没有限制，并得到了数值验证。这些结果说明了为什么这些 MNN 的高度非凸损失可以通过局部更新（例如随机梯度下降）进行易于优化，这与经验证据相符。

May, 2016

神经网络训练中的局部极小值

本文主要探讨了对于深度模型的错误表面进行特征化的兴趣，揭示在某些条件下，深度模型的局部最小值会影响模型训练的结果，需要额外的数据前提、初始化方案和 / 或模型类来支持全局最佳解的优化。

Nov, 2016

深度网络平坦极小值的独特特性

研究表明，随机梯度下降有一个偏好于平滑最小值的隐含偏差。本文研究发现，在具有二次损失的线性神经网络训练中，线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值，这些最小值对应着接近平衡网络。另外，相邻层的权重矩阵在平坦的极小值解中相互耦合，形成了从输入到输出的明显路径，该路径只用于体验端到端最大增益的信号。

Feb, 2020

具有几乎所有非线性激活函数的神经网络存在次优局部极小值

通过证明对于任何多层网络来说，存在次优局部极小值，无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络，这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。

Nov, 2019

浅层神经网络的插值性质

本文研究过参数神经网络的损失曲面的全局最小值的几何结构，证明浅层神经网络可以插值任何数据集，给出全局最小值的 Hessian 矩阵的特征表达式，并提供一种实用的概率方法寻找插值点。

Apr, 2023