本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
研究神经网络的优化问题,发现常见的损失函数在实现空间上是凸的,通过使用神经网络的近似能力来处理非凸性问题,利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性,并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。
May, 2019
本文研究表明,在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
本研究通过几何角度研究深度学习系统在分布改变的情况下的鲁棒性表现,发现神经网络在解决任务时处理问题不确定性的方式高度依赖于数据表示方法,而这会影响学习者的几何和复杂性。此研究揭示了理解深度学习中建筑归纳偏差对于解决公平性、鲁棒性、和泛化性非常重要。
Apr, 2021
本文证明了从窄网络到宽网络的过渡存在一个相变,窄网络存在次优盆地(sub-optimal basins),而宽网络不存在。具体地,采用连续激活函数的一类宽网络损失曲面没有亚优盆地,但是对于宽度低于阈值的大类网络,存在不是全局最小值而是严格局部最小值的情况。
Dec, 2018
本文通过分析,发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务,并且能够克服局部最优解的困难。
Dec, 2014
研究浅层神经网络在过参数化情况下,如何使用二次激活函数进行训练并找到全局最优解,结果表明此方法适用于具有任意输入 / 输出对的任何训练数据,并可使用各种本地搜索启发式方法高效地找到全局最优解。同时,对於差分激活函数,我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解,它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。
Jul, 2017
该论文研究了深度神经网络中过拟合的问题,证明了使用特定的损失函数时神经网络的收敛性及性能,提出了一种实用的判断不同零最小化点泛化性能的方法。
Jun, 2018
通过对大规模深层神经网络的优化方法的研究,我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。
Nov, 2018
本文采用 Polyak-Lojasiewicz 条件和随机矩阵理论,提供了一个分析框架,允许我们在基本浅层神经网络中同时训练所有层并达到网络宽度的理想亚二次标度。
Nov, 2021