定性描述神经网络优化问题

Dec, 2014

Qualitatively characterizing neural network optimization problems

Ian J. Goodfellow, Oriol Vinyals, Andrew M. Saxe

TL;DR本文通过分析，发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务，并且能够克服局部最优解的困难。

Abstract

Training neural networks involves solving large-scale non-convex optimization problems. This task has long been believed to be extremely difficult, with fear of →

neural networks optimization stochastic gradient descent local minima unsupervised pretraining

发现论文，激发创造

深度学习优化：理论与算法

本文介绍了用于训练神经网络的优化算法、如何应对梯度消失等问题的解决方案、广义优化方法（如 SGD、自适应梯度方法和分布式方法）以及神经网络训练中的全局问题。

Dec, 2019

神经网络训练中的局部极小值

本文主要探讨了对于深度模型的错误表面进行特征化的兴趣，揭示在某些条件下，深度模型的局部最小值会影响模型训练的结果，需要额外的数据前提、初始化方案和 / 或模型类来支持全局最佳解的优化。

Nov, 2016

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

梯度下降法在实用规模的可推广深度神经网络中寻找全局最小值

我们在本文中理论上证明了，在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中，梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度，而不需要以前的理论。此外，我们证明了网络的大小呈线性增长是最优的速率，除非是对数因子。此外，训练保证的深度神经网络显示出在自然数据集中很好地泛化到未见过的测试样本，但不包括随机数据集。

Aug, 2019

具有理论保证的机器学习非凸优化：鲁棒矩阵补全和神经网络学习

本文讲述了解释性学习系统是机器学习的一个新趋势，但由于现实数据是由非线性模型生成的，在研究非凸优化问题时，提供可解释性算法是具有挑战性的，本文研究了两个非凸问题：低秩矩阵补全和神经网络学习。

Jun, 2023

机器学习的非凸优化

本文阐述了机器学习中的非凸优化问题和直接方法在此领域的成功应用，旨在介绍这一领域的文献和分析非凸问题的简单程序工具。

Dec, 2017

学习困难优化问题：数据生成的视角

本论文研究了通过机器学习解决 NP 困难问题的可行性，指出了训练数据的易变性及其对模型的影响，并提出了改进的方法来适应这个问题。该方法被应用于非线性、非凸、离散组合问题的求解，取得了有效的结果。

Jun, 2021

神经网络优化路径的简单几何

本研究探讨了神经网络中采样梯度沿优化路径的基本几何特性，发现这些特性在大多数训练期间保持稳定动态，并提供了线性收敛的理论保证和反映经验实践的学习率计划。

Jun, 2023