- 浅层 ReLU 神经网络的过度参数化对优化空间的影响
本文研究了 ReLU 神经网络中的过度参数化对优化景观的影响,证明了当教师和学生网络拥有相同数量的神经元时,目标函数在全局最小值周围具有强凸性,但在任何超参数化量之后甚至没有局部凸性,而对于大多数方向来说保持一点强凸性,并在此属性之下展示优 - 证明《中奖彩票假说》: 剪枝就是你所需的一切
该研究提出彩票票据假设,证明对于每个有界分布以及带有有界权重的目标网络,一个具有随机权重的足够超参数的神经网络包含一个子网络,与目标网络具有大致相同的准确性,而不需要进一步的训练。
- ICML过参数神经网络的随机梯度下降解的景观连通性和降维稳定性
研究了多层神经网络的优化问题,通过引入随机梯度下降和过度参数化,证明了神经网络的优化路径具有线性特性,且稳定性越来越高,去除部分神经元不影响结果。
- 用代理随机设计的双重下降和隐式正则化的精确表达式
本文针对过度参数的最小范数线性估计器的双下降现象,借助一种称为代理随机设计的特殊确定点过程进行研究,该代理设计允许对估计器的平均平方误差进行精确表示,并且我们证明了对于代理设计,未正则化的最小范数估计器的隐式偏置恰好对应于在总体分布上解决岭 - 具有几乎所有非线性激活函数的神经网络存在次优局部极小值
通过证明对于任何多层网络来说,存在次优局部极小值,无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络,这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。
- 梯度下降法在实用规模的可推广深度神经网络中寻找全局最小值
我们在本文中理论上证明了,在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中,梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度,而不需要以前的理论。此外,我们证明了网络的大小呈线性增长是最优的速率,除非是对数因 - 训练超参数化深度神经网络的改进分析
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
- 关于学习超参数化神经网络的函数逼近视角
研究了使用梯度下降法在过度参数化的双层神经网络中训练,证明了在足够过度参数化的条件下,GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$,并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件,介绍 - ICML透过反比尺度空间探索深度网络的结构稀疏性
本文提出了一种基于反射尺度微分包含的新方法,该方法通过耦合一对参数在动力学过程中生成从简单到复杂的模型系列,同时探索过度参数化的深度模型和其结构稀疏性。实验证据表明,我们的方法在探索几个广泛使用的支撑点上的稀疏结构方面表现出与竞争优化器可比 - ICML网络宽度对随机梯度下降和泛化效果的影响:实证研究
通过超参寻优与一系列不同的神经网络模型,我们探究了过度参数化情况下随机梯度下降最终调整到的参数状态,并发现优化算法的最优超参数取决于一项被规范化的噪声参数,其与网络宽度等因素有关,这对各种类型的神经网络均成立,对于 ResNets 这样的网 - 随机特征在理解神经网络中的能力和局限
本文回顾了最近一系列训练超参数神经网络和学习随机特征的实证结果及其限制性说明,论述了神经网络的理论困境并对其表现出的令人印象深刻的经验结果提出了仍需克服的挑战。
- AAAI学习超参数化深度 ReLU 网络的梯度下降泛化误差界
通过算法依赖的综合误差界推导,论文解释了过度参数化的深度神经网络在合适的随机初始化下,使用梯度下降法可以获得任意小的泛化误差。
- ExpandNets:利用线性过参数化训练紧凑卷积网络
本文介绍了一种利用过参数化的方法来训练紧凑型神经网络的方法,通过将紧凑型神经网络的线性层扩展成多个连续的线性层,而不添加非线性化,形成扩展网络 ExpandNet,可在推理时代数地缩小回紧凑型神经网络。我们提出了两种卷积扩展策略,并在图像分 - 深度和宽度对深度学习局部最优解的影响
本文通过分析深度和宽度对局部极小值质量的影响,论证了在没有强烈的过参数化和简化假设的情况下,深度神经网络的局部极小值质量随着深度和宽度的增加而趋向于改善,并且在带有局部引导结构的深层非线性神经网络模型中,其局部最小值的值在理论上被证明不会比 - 深度学习的超参数化收敛理论
通过对大规模深层神经网络的优化方法的研究,我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。
- NIPS过度参数化结合期望最大化算法的优势
本文研究基于过度参数化的混合高斯模型的期望最大化算法在寻找全局最优解方面的表现,理论和实验结果表明,此方法可以避免局部最优解问题。
- ICLR梯度下降证明过参数化神经网络的最优化
本文研究表明,在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
- 训练 ReLU 神经网络的复杂度
本文探讨了采用 ReLU 激活函数训练神经网络的复杂度问题,研究表明在神经元构架固定的情况下,两层 ReLU 神经网络的训练是 NP - 难问题,但在第一隐藏层提供足够的超参数时,可以通过多项式时间算法找到合适的权重。
- 两层 ReLU 神经网络中的虚假局部极小值普遍存在
本文研究了如何通过过量参数方法减少 ReLU 神经网络中的假局部极小值问题,并通过集中度证明说明在高维输入空间中几乎所有有关大小的目标网络都会出现假局部极小值问题。
- 低精度 RNN:量化 RNN 而不失准确性
本文提出了一种量化方法,通过减少比特宽度来提高模型大小,从而使网络在保持精度的同时,仍能获得减少精度和整体模型大小减少的好处。