深且宽神经网络的损失曲面

ICMLApr, 2017

The loss surface of deep and wide neural networks

Quynh Nguyen, Matthias Hein

TL;DR本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Abstract

While the optimization problem behind deep neural networks is highly non-convex, it is frequently observed in practice that training deep networks seems possible without getting stuck in suboptimal points. It has been argued that this is the case as all →

deep neural networks local minima global optimization pyramidal structure squared loss

发现论文，激发创造

具任意损失函数的深度线性神经网络：所有的局部极小都是全局极小

本研究考虑使用深度线性网络进行任意凸可微损失的最小化，证明了当隐藏层宽度大于等于输入层或输出层时，局部最小值等价于全局最小值，若损失函数为凸且 Lipschitz 连续但不可微，则深度线性网络可能存在次优解。

Dec, 2017

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016

深度神经网络的全局最优条件

该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络，研究者提出了必要和充分条件，以判断风险函数的一个临界点是否为全局最小值，并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络，并在更有限的函数空间设置中证明了类似的充分条件。

Jul, 2017

具有几乎所有非线性激活函数的神经网络存在次优局部极小值

通过证明对于任何多层网络来说，存在次优局部极小值，无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络，这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。

Nov, 2019

无劣局部极小值的深度学习

本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题，从任意深度和宽度的角度证明了其对于平方误差函数的独特性，发现 “坏” 的鞍点只存在于深层网络中，给出了深度学习理论和非凸优化的合理性，但与实际应用仍有一定距离。

May, 2016

神经网络中激活函数的小非线性性会引起糟糕的局部最小值

本研究探讨神经网络的损失面。结果表明，大多数情况下，即使对于具有最轻微的非线性的单隐藏层网络，经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征，统一了这个主题上的其他结果。

Feb, 2018

神经网络训练中的局部极小值

本文主要探讨了对于深度模型的错误表面进行特征化的兴趣，揭示在某些条件下，深度模型的局部最小值会影响模型训练的结果，需要额外的数据前提、初始化方案和 / 或模型类来支持全局最佳解的优化。

Nov, 2016

多元神经网络学习真实目标函数

通过对具有 ReLU 激活函数的一层神经网络的分析，我们发现神经网络具有良好的优化特性，其具有多样的单元没有虚假局部最小值，在满足 “扩展特征矩阵” 的最小奇异值足够大的条件下，可以使损失函数变得任意小。

Nov, 2016

深度 CNN 的优化景观与表达能力

研究了使用共享权重和最大池化层的实用深度卷积神经网络的损失景观和表现力，发现这些 CNN 在宽层处可以产生线性独立特征，研究了获得零训练误差的全局最小值所需的必要和充分条件，分析表明，深度和宽度都很重要，宽度可以使损失函数具有很好的性质。

Oct, 2017

在神经网络中围绕宽平坦最小值塑造学习模式

本文研究了具有随机权重的一层和两层神经网络在非凸损失函数情况下的学习行为，引入了宽平原（WFM）这一概念，并探索了 WFM 如何出现以及在学习中起到什么作用。

May, 2019