深度神经网络损失曲面优化的实证分析

Dec, 2016

深度神经网络损失曲面优化的实证分析

An empirical analysis of the optimization of deep network loss surfaces

Daniel Jiwoong Im, Michael Tao, Kristin Branson

TL;DR本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Abstract

The success of deep neural networks hinges on our ability to accurately and efficiently optimize high-dimensional, non-convex functions. In this paper, we empirically investigate the loss functions of state-of-th

deep neural networks optimization loss functions stochastic gradient descent saddle points

发现论文，激发创造

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

深度神经网络的全局最优条件

该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络，研究者提出了必要和充分条件，以判断风险函数的一个临界点是否为全局最小值，并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络，并在更有限的函数空间设置中证明了类似的充分条件。

Jul, 2017

无劣局部极小值的深度学习

本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题，从任意深度和宽度的角度证明了其对于平方误差函数的独特性，发现 “坏” 的鞍点只存在于深层网络中，给出了深度学习理论和非凸优化的合理性，但与实际应用仍有一定距离。

May, 2016

定性描述神经网络优化问题

本文通过分析，发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务，并且能够克服局部最优解的困难。

Dec, 2014

浅层线性神经网络的全局优化几何

本文研究了浅层线性神经网络的平方误差损失景观。研究表明，对于相应的优化问题，其具有良好的几何性质，没有虚假局部极值，每个鞍点的 Hessian 矩阵至少有一个负特征值。这意味着在每个鞍点处，都有一个负的曲率方向可以用来优化目标函数值，因此很多局部搜索算法，如梯度下降，可以证明具有全局收敛性。

May, 2018

深度网络中的理论问题：逼近、优化和泛化

简述：对深度学习的理论研究逐渐深入，从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式，已经有了一些解释；通过在分类任务中使用经典的均匀收敛结果，我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性，从而解决了与深度网络泛化性能相关的一些谜团。

Aug, 2019

高维非凸优化中鞍点问题的识别与攻克

本文根据统计物理学、随机矩阵理论、神经网络理论和实证证据，证明高维问题中鞍点而非局部极小值点是造成误差函数最小值难以求解的主要原因，因此，提出了一种新的二阶优化方法 —— 无鞍牛顿法，用以快速逃脱高维鞍点并优化深度或递归神经网络。

Jun, 2014

过参数非线性系统和神经网络中的损失景观和优化

本文提出了一种现代观点和一般性的数学框架，用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化，其中包括超参数深度神经网络，并说明这些系统的 PL$^*$ 条件密切相关，这解释了（S）GD 对全局最小值的收敛，并提出了一个放松 PL$^*$ 条件的方法可应用于几乎超参数系统。

Feb, 2020

高维度景观探索

本文旨在证明高维度空间中定义的某些非凸函数有一个只包含其临界点大部分的数值狭窄区间的存在，并通过对 MNIST 数据集中的师生网络的实验观察得出了类似的结论，并发现梯度下降和随机梯度下降方法可以在相同步数内达到此水平。

Dec, 2014

过参数神经网络优化算法的动力学视角

本研究通过分析神经网络与算法优化之间的关系，探讨了近期许多工作都关注的神经网络损失动态问题，证明了在 ReLU 激活函数下，NAG 算法可能只是以次线性的速度达到全局最小值，结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。

Oct, 2020