分段线性激活显著地塑造了神经网络的损失曲面

ICLRMar, 2020

分段线性激活显著地塑造了神经网络的损失曲面

Piecewise linear activations substantially shape the loss surfaces of neural networks

Fengxiang He, Bohan Wang, Dacheng Tao

TL;DR本文介绍分段线性激活函数对神经网络损失曲面的形状有较大的影响，证明了许多神经网络的损失曲面具有无限的虚假局部极小值，将神经网络损失曲面分为多个平滑和多线性细胞。

Abstract

Understanding the loss surface of a neural network is fundamentally important to the understanding of deep learning. This paper presents how piecewise linear activation functions substantially shape the

neural networks loss surfaces activation functions local minima deep learning

发现论文，激发创造

神经网络中激活函数的小非线性性会引起糟糕的局部最小值

本研究探讨神经网络的损失面。结果表明，大多数情况下，即使对于具有最轻微的非线性的单隐藏层网络，经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征，统一了这个主题上的其他结果。

Feb, 2018

多层神经网络训练无坏局部最小值：针对数据的独立误差保证

通过平滑分析技术，我们对具有分段线性激活函数、二次损失和单输出的多层神经网络（MNN）在可微的局部极小值处的训练损失提供保证。特别地，我们证明对于一个具有一个隐藏层的 MNN，几乎每个数据集和 dropout-like 噪声实现的每个可微局部极小值的训练误差都是零，然后将这些结果扩展到多个隐藏层的情况。我们的理论保证对训练数据几乎没有限制，并得到了数值验证。这些结果说明了为什么这些 MNN 的高度非凸损失可以通过局部更新（例如随机梯度下降）进行易于优化，这与经验证据相符。

May, 2016

具有几乎所有非线性激活函数的神经网络存在次优局部极小值

通过证明对于任何多层网络来说，存在次优局部极小值，无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络，这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。

Nov, 2019

ReLU 网络的多线性结构

通过谐波分析，证明了多数情况下，神经网络丧失了与具体雅可比的联系，只留下非可微的极小值，这是研究 ReLU 网络损失时的核心问题，因此需要使用非光滑分析技术来研究这些损失表面。

Dec, 2017

深度神经网络中线性区域特性的实证研究

通过局部属性的研究，探究了 DNN 的表达能力和优化技术对其决策边界的影响，并希望这一研究能够启示新型优化技术的设计和发现 DNN 的行为模式。

Jan, 2020

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

多元神经网络学习真实目标函数

通过对具有 ReLU 激活函数的一层神经网络的分析，我们发现神经网络具有良好的优化特性，其具有多样的单元没有虚假局部最小值，在满足 “扩展特征矩阵” 的最小奇异值足够大的条件下，可以使损失函数变得任意小。

Nov, 2016

基于 Betti 数的损失面拓扑描述

通过对多层神经网络中的损失函数的拓扑度量，研究比较深层和浅层架构的复杂性以及其受隐藏单元数量、训练模型和激活函数的影响，揭示了一些特定情况下，添加正则项或在前馈网络中实施跳跃连接等对损失拓扑没有影响。

Jan, 2024

深度学习中的连通子水平集

该研究表明，具有分段线性激活函数的一类深度超参数神经网络的每个子级别集都是连通且无界的，从而意味着该损失函数没有不良的局部最小值，并且所有的全局最小值都位于唯一且可能非常大的全局最优解中。

Jan, 2019

具任意损失函数的深度线性神经网络：所有的局部极小都是全局极小

本研究考虑使用深度线性网络进行任意凸可微损失的最小化，证明了当隐藏层宽度大于等于输入层或输出层时，局部最小值等价于全局最小值，若损失函数为凸且 Lipschitz 连续但不可微，则深度线性网络可能存在次优解。

Dec, 2017