深度学习中的连通子水平集
我们确定了一类过参数化的深度神经网络,使用标准激活函数和交叉熵损失,可以证明在参数空间中不存在坏的局部最小值,意味着这些网络没有次优的严格局部极小值。
Sep, 2018
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
本文介绍分段线性激活函数对神经网络损失曲面的形状有较大的影响,证明了许多神经网络的损失曲面具有无限的虚假局部极小值,将神经网络损失曲面分为多个平滑和多线性细胞。
Mar, 2020
本研究考虑使用深度线性网络进行任意凸可微损失的最小化,证明了当隐藏层宽度大于等于输入层或输出层时,局部最小值等价于全局最小值,若损失函数为凸且 Lipschitz 连续但不可微,则深度线性网络可能存在次优解。
Dec, 2017
本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题,从任意深度和宽度的角度证明了其对于平方误差函数的独特性,发现 “坏” 的鞍点只存在于深层网络中,给出了深度学习理论和非凸优化的合理性,但与实际应用仍有一定距离。
May, 2016
本文主要研究神经网络中存在的局部极小值问题。针对两层神经网络,定义了其固有维度,并证明了有限的固有维度保证了超参数化的模型不存在局部极小值,而无限的固有维度意味着在某些数据分布下必然存在局部极小值。此外,尽管在一般情况下可能存在局部极小值,但其出现在低风险水平,并高概率地避免在超参数化的模型上。
Feb, 2018
过参数化网络损失面的子级集合是连接的,本文描述和比较了一系列用于连接两个低损失点的低损失曲面的方法,其中大多数方法基于 “宏观” 分布假设,一些对待连接的点的详细属性不敏感,需要先训练全局连接模型来应用于任意一对点,方法的准确性通常与其复杂性和端点细节的敏感性相关。
Aug, 2020
本文通过理论证明,展示了深度学习中残差网络加入跳跃连接可以控制子级集的连接性,且在二层 ReLU 网络的全局最小值以下的任何局部最小值将是非常 “浅” 的,其 “深度” 最多为 O (m^[(η-1)/n]),从而解释了跳跃连接在深度学习中的有效性。
Jun, 2020
本文研究深度学习中通过证明只有深度,没有非线性性质也不会产生坏局部极小值,由此大大简化了之前证明前馈深度线性神经网络所有局部极小值也是全局极小值的方法,并推广到了深度线性模型的平方误差函数以外的情形。
Feb, 2017
通过证明对于任何多层网络来说,存在次优局部极小值,无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络,这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。
Nov, 2019