学习深度模型：临界点和局部开放性

Mar, 2018

学习深度模型：临界点和局部开放性

Learning Deep Models: Critical Points and Local Openness

Maher Nouiehed, Meisam Razaviyayn

TL;DR该篇论文提出了一个统一框架，确定了训练非凸模型产生的优化问题的局部 / 全局最优等价性，讨论了线性神经网络和具有一定金字塔结构的非线性深层模型的局部 / 全局最优等价性，并提供了简单的充分条件。

Abstract

With the increasing interest in deeper understanding of the loss surface of many non-convex deep models, this paper presents a unifying framework to establish the local/global optima equivalence of the

non-convex deep models optimization problems local/global optima equivalence linear neural networks pyramidal structure

发现论文，激发创造

深度神经网络的全局最优条件

该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络，研究者提出了必要和充分条件，以判断风险函数的一个临界点是否为全局最小值，并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络，并在更有限的函数空间设置中证明了类似的充分条件。

Jul, 2017

无劣局部极小值的深度学习

本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题，从任意深度和宽度的角度证明了其对于平方误差函数的独特性，发现 “坏” 的鞍点只存在于深层网络中，给出了深度学习理论和非凸优化的合理性，但与实际应用仍有一定距离。

May, 2016

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

具任意损失函数的深度线性神经网络：所有的局部极小都是全局极小

本研究考虑使用深度线性网络进行任意凸可微损失的最小化，证明了当隐藏层宽度大于等于输入层或输出层时，局部最小值等价于全局最小值，若损失函数为凸且 Lipschitz 连续但不可微，则深度线性网络可能存在次优解。

Dec, 2017

张量分解、深度学习及其超越中的全局最优性

该研究通过对矩阵分解、张量分解和深度神经网络训练等问题的非凸优化问题的充分条件分析，提出了一种通用框架，能够在任意初始的情况下使用纯局部下降算法找到全局最小值，为深度神经网络的优化提供了理论支持和指导。

Jun, 2015

多层网络的损失曲面

本文研究了全连接前馈神经网络的非凸损失函数与球形自旋玻璃模型哈密顿量之间的联系，并通过随机矩阵理论的结果来解释网络的复杂性和局部极小值的位置分布，利用计算机模拟和数学模型对结果进行了验证和验证。

Nov, 2014

具有单神经元层的深度线性网络的全局收敛分析

本文介绍了深度线性网络的非局部收敛分析，特别是考虑具有一个神经元层的深度线性网络，其收敛点在梯度流下产生的任意起点轨迹上，包括收敛到鞍点或原点之一的路径，本文通过扩展 Eftekhari 的工作，以可证明地标识稳定秩集和全局最小化收敛集来实现这些结果。

Jan, 2022

神经网络中激活函数的小非线性性会引起糟糕的局部最小值

本研究探讨神经网络的损失面。结果表明，大多数情况下，即使对于具有最轻微的非线性的单隐藏层网络，经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征，统一了这个主题上的其他结果。

Feb, 2018

深度学习理论 III：解释非过拟合谜题

该研究探讨深度网络中的过拟合问题，发现梯度下降在非线性网络中的优化动力学与线性系统是等价的，同时也推广了梯度下降的两个性质到非线性网络中：隐式正则化以及最小范数解的渐近收敛，通过这些性质，可以提高模型的泛化能力，同时在分类任务中也能得到较好的分类误差。

Dec, 2017

深度不会导致糟糕的局部极小值

本文研究深度学习中通过证明只有深度，没有非线性性质也不会产生坏局部极小值，由此大大简化了之前证明前馈深度线性神经网络所有局部极小值也是全局极小值的方法，并推广到了深度线性模型的平方误差函数以外的情形。

Feb, 2017