超参数神经网络中初始流域的质量

Nov, 2015

超参数神经网络中初始流域的质量

On the Quality of the Initial Basin in Overspecified Neural Networks

Itay Safran, Ohad Shamir

TL;DR本文探讨了在 ReLU 神经网络中，通过随机初始化的方式初始参数，研究与之相关的非凸优化函数的几何结构，寻找全局最小点和小的最小目标价值。结果表明，相较于小型神经网络，大型神经网络更容易满足这些性质。

Abstract

deep learning, in the form of artificial neural networks, has achieved remarkable practical success in recent years, for a variety of difficult machine learning applications. However, a theoretical explanation fo

deep learning artificial neural networks optimization non-convex objective function relu networks

发现论文，激发创造

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

ReLU 激活函数的神经网络参数化有多退化？

研究神经网络的优化问题，发现常见的损失函数在实现空间上是凸的，通过使用神经网络的近似能力来处理非凸性问题，利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性，并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。

May, 2019

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

深度学习中欠指定问题的神经各向异性视角

本研究通过几何角度研究深度学习系统在分布改变的情况下的鲁棒性表现，发现神经网络在解决任务时处理问题不确定性的方式高度依赖于数据表示方法，而这会影响学习者的几何和复杂性。此研究揭示了理解深度学习中建筑归纳偏差对于解决公平性、鲁棒性、和泛化性非常重要。

Apr, 2021

神经网络宽度对性能的好处：不良盆地的消失

本文证明了从窄网络到宽网络的过渡存在一个相变，窄网络存在次优盆地（sub-optimal basins），而宽网络不存在。具体地，采用连续激活函数的一类宽网络损失曲面没有亚优盆地，但是对于宽度低于阈值的大类网络，存在不是全局最小值而是严格局部最小值的情况。

Dec, 2018

定性描述神经网络优化问题

本文通过分析，发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务，并且能够克服局部最优解的困难。

Dec, 2014

过度参数的浅层神经网络优化空间的理论洞见

研究浅层神经网络在过参数化情况下，如何使用二次激活函数进行训练并找到全局最优解，结果表明此方法适用于具有任意输入 / 输出对的任何训练数据，并可使用各种本地搜索启发式方法高效地找到全局最优解。同时，对於差分激活函数，我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解，它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。

Jul, 2017

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

浅层神经网络的次二次超参数化

本文采用 Polyak-Lojasiewicz 条件和随机矩阵理论，提供了一个分析框架，允许我们在基本浅层神经网络中同时训练所有层并达到网络宽度的理想亚二次标度。

Nov, 2021