深度神经网络的全局最优条件

ICLRJul, 2017

Global optimality conditions for deep neural networks

Chulhee Yun, Suvrit Sra, Ali Jadbabaie

TL;DR该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络，研究者提出了必要和充分条件，以判断风险函数的一个临界点是否为全局最小值，并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络，并在更有限的函数空间设置中证明了类似的充分条件。

Abstract

We study the error landscape of deep linear and nonlinear neural networks with the squared error loss. Minimizing the loss of a deep linea

error landscape deep neural network nonlinear neural networks global optimality squared error loss

发现论文，激发创造

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

浅层线性神经网络的全局优化几何

本文研究了浅层线性神经网络的平方误差损失景观。研究表明，对于相应的优化问题，其具有良好的几何性质，没有虚假局部极值，每个鞍点的 Hessian 矩阵至少有一个负特征值。这意味着在每个鞍点处，都有一个负的曲率方向可以用来优化目标函数值，因此很多局部搜索算法，如梯度下降，可以证明具有全局收敛性。

May, 2018

具任意损失函数的深度线性神经网络：所有的局部极小都是全局极小

本研究考虑使用深度线性网络进行任意凸可微损失的最小化，证明了当隐藏层宽度大于等于输入层或输出层时，局部最小值等价于全局最小值，若损失函数为凸且 Lipschitz 连续但不可微，则深度线性网络可能存在次优解。

Dec, 2017

无劣局部极小值的深度学习

本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题，从任意深度和宽度的角度证明了其对于平方误差函数的独特性，发现 “坏” 的鞍点只存在于深层网络中，给出了深度学习理论和非凸优化的合理性，但与实际应用仍有一定距离。

May, 2016

学习深度模型：临界点和局部开放性

该篇论文提出了一个统一框架，确定了训练非凸模型产生的优化问题的局部 / 全局最优等价性，讨论了线性神经网络和具有一定金字塔结构的非线性深层模型的局部 / 全局最优等价性，并提供了简单的充分条件。

Mar, 2018

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016

过参数非线性系统和神经网络中的损失景观和优化

本文提出了一种现代观点和一般性的数学框架，用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化，其中包括超参数深度神经网络，并说明这些系统的 PL$^*$ 条件密切相关，这解释了（S）GD 对全局最小值的收敛，并提出了一个放松 PL$^*$ 条件的方法可应用于几乎超参数系统。

Feb, 2020

神经网络的临界点：解析形式与景观特性

本研究提供了正方形损失函数的所有临界点（以及全局优化器）的解析形式的全面（必要和充分）表征，展示了实现全球最小值的必要和充分条件，并通过极小值的分析形式表征了神经网络的损失函数的景观特性。

Oct, 2017

具有单神经元层的深度线性网络的全局收敛分析

本文介绍了深度线性网络的非局部收敛分析，特别是考虑具有一个神经元层的深度线性网络，其收敛点在梯度流下产生的任意起点轨迹上，包括收敛到鞍点或原点之一的路径，本文通过扩展 Eftekhari 的工作，以可证明地标识稳定秩集和全局最小化收敛集来实现这些结果。

Jan, 2022

具有高斯输入的 ConvNet 的全局最优梯度下降

在神经网络模型中，使用 Gradient descent 算法时，当输入分布满足高斯分布时，使用 Convolutional neural network 和 ReLU activations 的神经网络模型可以在多项式时间内收敛于全局最优点。但是，我们证明了这种情况下学习是 NP 完全问题。

Feb, 2017