深度神经网络的深度:理论视角
该论文研究了深层神经网络在梯度下降最优化过程中利用深度的表达能力,证明了具有分形结构的分布可以被深层网络有效地表达,而浅层网络无法表达。论文还探讨了粗细篮子之间的平衡如何影响深度神经网络的优化过程,并推断了学习深度神经网络是否成功取决于分布是否可以被浅层网络很好地逼近的结论。
Mar, 2019
通过理论分析,文章探讨了深度神经网络的泛化能力与网络深度之间的关系,并且指出卷积层等具有信息损失的深层结构可以提高整个网络的泛化性能。但是随着网络深度的增加,拟合数据的信息损失也会增大,也就是网络深度与训练误差之间有一定的条件关系。此外,文章还表明深度神经网络具有一定的稳定性,随着网络深度的增加,样本复杂度会降低。
Apr, 2018
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler(KL)散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩,而 Wasserstein 界限暗示了存在一个层作为泛化漏斗,它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型(Dropout,DropConnect 和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024
研究发现,对于几乎所有已知的激活函数类型,存在简单的(大致上是径向的)函数在 $ eals^d$ 上,可由小型三层前馈神经网络表达,但无法用任何二层网络近似到特定常数精度以上,除非它的宽度在指数级别。此结果证明了深度比宽度对于标准前馈神经网络的提升,即使只增加了 1 层,其价值也可以是指数级别。此外,相比于布尔函数相关研究,该结果需要更少的假设,并且证明技巧和构造方法非常不同。
Dec, 2015
本篇论文提出了一种新的损失函数,通过对深度神经网络中任意一组层(包括输入和隐藏层)的度量度量范数施加边缘来实现任意选择度量的边缘的深度网络。本文的损失具有较好的特性,适用于小训练集,分类和鲁棒性等任务,与现有数据扩增和正则化技术相辅相成。
Mar, 2018
本篇研究通过探究深度和宽度对模型隐藏表示的影响,发现一个特征块结构,这个结构是相对于训练集大小而言容量较大(更宽 / 更深)的模型中隐藏表示的一种保留和传播主要成分的方式。该发现对不同模型学习的特征有重要影响,其代表性的块结构对于每个模型来说是独一无二的。最后,我们分析了不同模型体系结构的输出预测,发现即使整体准确率相似,宽而深的模型也表现出不同类别之间鲜明的错误模式和差异。
Oct, 2020
本文通过引入一种称为 “起始 - 终止分离等级” 的度量方式,证明了深度循环网络相较于其浅层对应版本在建模长时依赖方面具有压倒性的优势,并通过量子张量网络的工具获取了更多的图形洞见。
Oct, 2017
采用信息理论的视角探索深度神经网络在有监督分类中的理论基础,分析了拟合误差、模型风险和泛化误差上界的相关概念及其对样本数据质量和正则化超参数设置的指导作用,研究发现过度参数化、非凸优化和平坦极小值在深度神经网络中的影响,并通过实证验证证实了理论发现与实际风险之间显著的正相关关系。
Jun, 2024
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019