深度学习理论原理
这篇文章介绍了关于神经网络的统计理论,从三个角度进行了综述:非参数回归或分类中关于神经网络过度风险的结果,神经网络的训练动力学以及生成模型中的最新理论进展。
Jan, 2024
本文研究神经网络的学习和泛化性能,发现对于宽神经网络,学习动态变得简单,并且在无限宽度的极限下,它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时,通过在广义上拟合高斯过程的理论,揭示了神经网络可能表现出高斯过程的特性。
Feb, 2019
使用一种物理学方法对深度学习进行研究,通过重整化群、Feynman 图和副本构造了一个多功能场论形式体系用于分析高度超参数化情况下的深度学习,研究表明 DNNs 除了高度超参数化外,仍然具有解释性和预测性 —— 偏向于简单函数。
Jun, 2019
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
本文回顾了最近关于层级神经网络结构的研究成果,探讨了深度卷积神经网络优于浅层神经网络在函数近似问题中的表现条件。本文提出了一个新的对于相对维度的定义,该定义可以被深层网络而非浅层网络使用以显著降低近似和学习所需的复杂度。同时,本文还宣布了关于当前神经网络中使用的非平滑激活函数 - ReLU 函数以及高斯网络的新结果。
Aug, 2016
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019
本论文旨在应用物理学中的对称性、局域性、复合性和多项式对数概率等性质,研究深度神经网络在近似处理特定实际问题时可以使用相对简单的模型,从信息论的角度证明这些理论,并通过层次结构的机制使深层模型比浅层模型更高效。
Aug, 2016
在深度卷积神经网络中,通过提出一种以带有 ReLU 非线性激活的网络为基础的新型理论框架,该框架通过在教师 - 学生设置中扩展学生的向前 / 向后传播,明确了数据分布,强调了分解表示,并且兼容常见的规则化技术,不会强加不现实的假设,这种框架有助于促进许多实用问题(如过拟合,概括,深度网络中的分解表示)的理论分析。
Sep, 2018
通过群论的视角,研究了深度学习中的表示问题,发现预训练实际上是在寻找具有最小轨道的特征,从而解释了为什么深度学习网络会先学习一些简单的特征,并阐述了为什么随着层数的增加,表示的复杂度逐渐增高。
Apr, 2015
通过统一的几何原理,深度学习可以更好地揭示基本规律,提供数学框架来研究卷积神经网络、循环神经网络、图神经网络和变压器网络等神经网络,且可以将物理学知识结合到神经网络结构中,从而提供了未来神经网络结构的原则性方法。
Apr, 2021