神经网络学习复杂性
本论文旨在应用物理学中的对称性、局域性、复合性和多项式对数概率等性质,研究深度神经网络在近似处理特定实际问题时可以使用相对简单的模型,从信息论的角度证明这些理论,并通过层次结构的机制使深层模型比浅层模型更高效。
Aug, 2016
通过 Barron 定理,我们证明了一组满足某些 Fourier 条件的函数的组合可以通过一个多达 $n+1$ 层的神经网络来逼近,为深度神经网络的表达能力提供了解释。英文原文主要探讨了神经网络的一些基本性质以及其在生成模型领域的应用,建议阅读原文以获取更多细节。
Feb, 2017
本文通过深度神经网络的 Kolmogorov 最优化来发展其基本极限,并阐述了深度网络对于不同函数类的 Kolmogorov 最优逼近性,其提供了指数级的逼近精度,并且在逼近足够光滑的函数时,相较于有限宽深网络,有限宽深层网络需要更小的连通性。
Jan, 2019
研究神经网络单隐层的一般化性能,使用非欧几里得正则化工具,证明了它们适应未知的线性结构,而使用稀疏感应规范则可以实现高维非线性变量选择,提供了简单的几何解释,并提供了一些凸松弛的简单条件来实现相同的一般化误差界限,留下存在或不存在多项式时间算法的问题。
Dec, 2014
通过对具有 ReLU 激活函数的一层神经网络的分析,我们发现神经网络具有良好的优化特性,其具有多样的单元没有虚假局部最小值,在满足 “扩展特征矩阵” 的最小奇异值足够大的条件下,可以使损失函数变得任意小。
Nov, 2016
本文证明,对于一类良好行为的输入分布,一个双层全连接神经网络的早期学习动态可以通过在输入上训练简单的线性模型来模仿。关键在于通过约束初始时的神经切向核(NTK)和数据核的仿射变换之间的谱范数差异来赋值。我们还表明,这种令人惊讶的简单性可以在更多层和具有卷积结构的网络中持续存在,验证了这一点。
Jun, 2020
利用梯度下降证明了学习单层神经网络的第一个超多项式下限,它包括使用小批量的梯度下降,需要锐利的激活函数和适用于特定查询的以前结果。与以前的结果不同,我们的结果适用于包括 ReLU 和 sigmoid 在内的广泛激活类别,并且围绕一种新型神经网络的结构构建。
Jun, 2020
通过证明对于任何多层网络来说,存在次优局部极小值,无法证明 [59] 中针对一层网络得到的 “不存次优局部极小值” 的结果适用于深层网络,这个研究结果表明 “没有坏的局部极小值” 不能解释过参数化对神经网络训练的好处。
Nov, 2019