轻度超参数化双层神经网络的局部收敛理论
本文研究了如何通过过量参数方法减少ReLU神经网络中的假局部极小值问题,并通过集中度证明说明在高维输入空间中几乎所有有关大小的目标网络都会出现假局部极小值问题。
Dec, 2017
通过研究多层前馈ReLU神经网络、交叉熵损失函数、核方法等工具,我们发现标准l2正则化器在实际应用中具有很大优越性,并且通过构造一个简单的d维数据集,我们证明了有正则化器的神经网络只需要O(d)的数据集就能训练成功,而对于无正则化器的NTK神经网络,则需要至少Omega(d^2)的数据才能训练成功。同时,我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器,并且能够得到全局最优解。
Oct, 2018
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
Feb, 2019
提出了一种自适应梯度下降方法,可用于优化过度参数化的两层神经网络,并能在多项式时间内收敛到全局最小值,无需微调超参数,如步长计划,且超参数的级别与训练误差无关。
Feb, 2019
本文首次分析了自然梯度下降在非线性神经网络中的收敛速度,发现若序列导数矩阵显满秩且在初始化附近稳定,则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络,作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持,并将分析拓展到其他损失函数,同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。
May, 2019
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
通过证明对于任何多层网络来说,存在次优局部极小值,无法证明[59]中针对一层网络得到的“不存次优局部极小值”的结果适用于深层网络,这个研究结果表明“没有坏的局部极小值”不能解释过参数化对神经网络训练的好处。
Nov, 2019
本文研究了ReLU神经网络中的过度参数化对优化景观的影响,证明了当教师和学生网络拥有相同数量的神经元时,目标函数在全局最小值周围具有强凸性,但在任何超参数化量之后甚至没有局部凸性,而对于大多数方向来说保持一点强凸性,并在此属性之下展示优化保证。
Jun, 2020
研究了两层轻度超参数化ReLU神经网络对于平方误差丢失函数的一般有限输入数据集的损失景观,使用Jacobean的秩来界定局部和全局极小值集合的维度,并利用随机二进制矩阵的结果证明大多数激活模式对应于没有坏的可微局部极小值的参数区域。
May, 2023