- 从功能等效性的角度看前馈神经网络的复杂度
研究了前馈神经网络的复杂性,通过功能等价的概念来探讨不同的网络参数化可以导致相同的功能,利用排列不变性来推导出前馈神经网络类的新型覆盖数界限,揭示了通过利用这个属性可以降低神经网络的复杂性,此外,通过参数空间的对称结构,证明适当的随机参数初 - ICLR多层均场网络实现深度分离
本文研究深度学习理论中深度分离问题,证明了使用过参数化的神经网络能够有效地学习深度函数构造,其中该结果依赖于一种新的扩展平均场极限到多层神经网络的方法和一种损失因式分解方法。
- ICLR使用过度参数化递归神经网络学习低维状态空间
本文研究了 Gradient Descent 在过参数化的线性循环神经网络上的外推性质,提供了理论证据表明算法会学习低维状态空间来建模长期记忆。实验验证了理论,表明线性和非线性循环神经网络可以通过学习低维状态空间来外推。
- 过度参数化情况下随机正交转换任务的灾难性遗忘分析
该研究从理论上和实验证明,过参数化可以在一定程度上改善神经网络模型在连续学习中遗忘前任务的性能表现。
- 浅层神经网络的次二次超参数化
本文采用 Polyak-Lojasiewicz 条件和随机矩阵理论,提供了一个分析框架,允许我们在基本浅层神经网络中同时训练所有层并达到网络宽度的理想亚二次标度。
- 超参数神经网络的梯度下降动力学
本文通过 Lyapunov 分析,证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点,并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数,从而提供了 Arora 等人的普适性结果的另一证明。
- 深度学习:统计观点
探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功,以及其之所以具有超预期的表现,推断是因为过度参数化可以让梯度方法寻找插值解,这些方法隐含地施加正则化,并且过度参数化导致了良性过拟合等基本原理构成了这个现象,同时 - AAAI模型压缩中过参数化的可证益处:从双峰下降到神经网络修剪
本文分析了过参数化模型剪枝中的双重下降现象,提出了在某些情况下,训练大型模型再进行剪枝比仅使用已知信息更好的理论证明,同时也发现了重新训练的好处以及在线性和随机特征模型中已经存在这些现象,这进一步促进了高维分析工具的发展。
- 超参数线性回归中的最优加权 L2 正则化
本文对过参数线性模型中采用广义(加重)岭回归估计系数的预测风险进行了分析,并探讨了在偏好一定系数分布时参数的最优预测,以及过参数现象在主成分回归中的具体表现,进而提出了在无偏估计与最优正则化问题中,加权目标函数方法的优越性。
- 超参数化为什么会加剧虚假相关性的调查
研究超参数化为什么会增加模型大小,尽管数据中存在虚假相关性,具有各种数量的少数族裔,理论上证明模型的归纳偏差会导致过度参数化的问题,并提出子抽样是有效的解决方案。
- 保持梯度流的情况下在训练之前选择获胜的票数
该研究旨在通过初始修剪神经网络来提高训练和测试时的资源效率。通过保留网络中的梯度流,提出了一个名为 GraSP 的简单但有效的剪枝标准,并在 VGGNet 和 ResNet 架构上进行了广泛实验,证明其在极度稀疏的情况下具有更好的性能。
- 线性回归中更多的数据可能会产生负面效果:样本逐步双峰曲线
在高参数化线性回归领域中,出现了一个令人惊讶的现象,即当样本数少于特征维数时,测试误差会随着样本增加而增加,即更多的数据反而会伤害估计器。该现象是近期理论研究分析线性模型中 “双下降” 现象的一部分。在本文中,我们以线性回归为预测模型,通过 - 深度残差网络过参数化情况下的算法依赖性泛化界
通过分析过度参数化的深层残差网络,我们证明了梯度下降学习的网络类是整个神经网络函数类的一个子集,这个子集足够大以保证小的训练误差和测试误差,并且此类网络具有小的泛化差距,这提供了残差网络优于非残差网络的解释。
- ICML学习潜变量模型中过度参数化的益处的实证研究
通过合成和半合成实验,我们对无监督学习中的超参数化不同方面进行了实证研究,发现在各种模型(如嘈杂 OR 网络、稀疏编码、概率上下文自由语法)和训练算法(如变分推断、交替最小化、期望最大化)中,超参数化可以显著增加回收潜在变量的数量。
- 线性回归中的良性过拟合
研究表明,过度拟合是深度学习方法的主要问题之一,但当训练中使用最小规范化规则时,线性回归问题中的过度拟合也可以实现高精度预测,需要超参数数量显著超过样本大小。
- ICML过参数化的和 - 积网络优化
本文通过理论分析和实证实验研究深层和浅层的 sum-product 网络过度参数化对参数优化速度的影响,发现深层的 sum-product 网络相较于浅层网络具有自适应学习率和额外动量项的梯度升级方式使其具有更快的参数优化速度。
- 回归中的无害噪声数据插值
本研究探讨了深度神经网络在训练数据含有噪声且参数个数超过数据点个数时,仍能够实现零训练误差且具有泛化能力的机制,并阐述了过拟合和特征选择不佳对泛化能力的影响。
- 迈向适度的过度参数化:为训练浅层神经网络提供全局收敛保证
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
- 超参数神经网络中的学习和泛化:超越两层
本文通过分析神经网络在超参数化情况下的学习理论,证明了神经网络能够通过 SGD 算法简单地学习某些重要的概念并且样本复杂度几乎独立于网络参数的数量。此外,本文还建立了一个神经网络的二次近似概念,并将其与如何逃离鞍点的 SGD 理论联系起来。
- 深度网络真的需要权重衰减和丢弃吗?
通过实验研究发现,即使不采取常见的正则化技术,通过引入足够的数据扩增,可以实现深度神经网络在目标识别上的高准确性