浅层神经网络的插值性质

Apr, 2023

Interpolation property of shallow neural networks

Vlad-Raul Constantinescu, Ionel Popescu

TL;DR本文研究过参数神经网络的损失曲面的全局最小值的几何结构，证明浅层神经网络可以插值任何数据集，给出全局最小值的 Hessian 矩阵的特征表达式，并提供一种实用的概率方法寻找插值点。

Abstract

We study the geometry of global minima of the loss landscape of overparametrized neural networks. In most optimization problems, the loss

overparametrized neural networks global minima loss landscape interpolation activation function

发现论文，激发创造

浅层线性神经网络的全局优化几何

本文研究了浅层线性神经网络的平方误差损失景观。研究表明，对于相应的优化问题，其具有良好的几何性质，没有虚假局部极值，每个鞍点的 Hessian 矩阵至少有一个负特征值。这意味着在每个鞍点处，都有一个负的曲率方向可以用来优化目标函数值，因此很多局部搜索算法，如梯度下降，可以证明具有全局收敛性。

May, 2018

超参数神经网络的损失景观

本文研究过参数神经网络的损失函数的数学特性，证明了当神经网络的参数数目大于数据点数目时，全局最小值点的集合通常是一个高维子流形。

Apr, 2018

迈向适度的过度参数化：为训练浅层神经网络提供全局收敛保证

本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型，并结合实验结果以浅层神经网络和平滑激活函数为例，证明了只需参数数量高于数据集大小的平方根时，梯度下降随机初始化即可收敛至全域最优解。

Feb, 2019

无劣局部极小值的深度学习

本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题，从任意深度和宽度的角度证明了其对于平方误差函数的独特性，发现 “坏” 的鞍点只存在于深层网络中，给出了深度学习理论和非凸优化的合理性，但与实际应用仍有一定距离。

May, 2016

具任意损失函数的深度线性神经网络：所有的局部极小都是全局极小

本研究考虑使用深度线性网络进行任意凸可微损失的最小化，证明了当隐藏层宽度大于等于输入层或输出层时，局部最小值等价于全局最小值，若损失函数为凸且 Lipschitz 连续但不可微，则深度线性网络可能存在次优解。

Dec, 2017

过度参数的浅层神经网络优化空间的理论洞见

研究浅层神经网络在过参数化情况下，如何使用二次激活函数进行训练并找到全局最优解，结果表明此方法适用于具有任意输入 / 输出对的任何训练数据，并可使用各种本地搜索启发式方法高效地找到全局最优解。同时，对於差分激活函数，我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解，它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。

Jul, 2017

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

深度神经网络的全局最优条件

该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络，研究者提出了必要和充分条件，以判断风险函数的一个临界点是否为全局最小值，并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络，并在更有限的函数空间设置中证明了类似的充分条件。

Jul, 2017

梯度下降找到深度神经网络的全局最小值

通过分析神经网络架构的格拉姆矩阵的结构，证明了梯度下降法在针对深度超参数神经网络 ResNet 的多项式时间内实现零训练损失，并且进一步将该分析扩展到了深度残差卷积神经网络并获得了类似的收敛结果。

Nov, 2018

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018