网络退化作为训练性能的指标:有限与无限角度预测的比较
论文研究神经网络深度退化现象和该现象与两输入的夹角随层数变化的关系,使用组合拓展方法得出随着层数增加该夹角趋近于零的精确公式,并发现这些公式与相关高斯函数的混合矩和贝塞尔数之间存在意外的组合连接。
Feb, 2023
通过研究神经网络的权重和激活,以逆向工程神经网络算法为目标,机械可解释性旨在解析神经网络的算法。我们提出了 3 种网络参数退化的方法,并发展了一种指标来识别网络中的模块,以寻求一种对退化不敏感的表示方法,从而使得神经网络更易解释,而且更有可能具有较少的相互作用。我们介绍了一种称为交互基础的方法,它可以从激活或雅可比矩阵的线性相关性中获得一种对退化不敏感的表示。
May, 2024
研究发现,对于几乎所有已知的激活函数类型,存在简单的(大致上是径向的)函数在 $ eals^d$ 上,可由小型三层前馈神经网络表达,但无法用任何二层网络近似到特定常数精度以上,除非它的宽度在指数级别。此结果证明了深度比宽度对于标准前馈神经网络的提升,即使只增加了 1 层,其价值也可以是指数级别。此外,相比于布尔函数相关研究,该结果需要更少的假设,并且证明技巧和构造方法非常不同。
Dec, 2015
本文提供了一些新的基于深度的前馈神经网络分离结果,证明了各种类型的简单自然函数可以更好地用深层网络逼近比更浅的更大的网络,这包括指示球和椭圆体的指示器,$L_1$ 范数下径向非线性函数,以及平滑的非线性函数。我们还展示了这些差距的实验观察结果:当训练神经网络学习一个单位球的指示器时,增加深度比增加宽度更容易收敛学习。
Oct, 2016
本文研究神经网络的学习和泛化性能,发现对于宽神经网络,学习动态变得简单,并且在无限宽度的极限下,它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时,通过在广义上拟合高斯过程的理论,揭示了神经网络可能表现出高斯过程的特性。
Feb, 2019
完全连接的深度神经网络,其权重从独立的高斯分布初始化,可以调整到临界状态,阻止信号在网络中传播时呈指数增长或衰减。然而,这种网络仍然会表现出与网络深度线性增长的波动,这可能会削弱与深度相当的宽度网络的训练。我们在理论上证明了矩形网络与双曲正切激活函数以及从正交矩阵集合初始化权重,其相应的预激活波动与深度无关,以逆宽度为导数阶主导。此外,我们通过数值实验表明,初始化时在逆宽度方向上控制可观测量的演变的神经切向核(NTK)及其后代涉及的相关者的饱和深度约为 20,而不像高斯初始化的情况下无限增长。我们推测这种结构保留了有限宽度特征学习的同时,降低了整体噪声,从而改善了泛化能力和训练速度。通过将 NTK 的经验测量与深度非线性正交网络在 MNIST 和 CIFAR-10 分类任务上的卓越性能联系起来,我们提供了一些实验上的证明。
Oct, 2023
当 DEQ 层的宽度趋近于无穷大时,它收敛到一个高斯过程,建立了所谓的神经网络和高斯过程 (NNGP) 的对应关系,这种收敛甚至在深度和宽度的极限互换的情况下也成立,这些发现为研究 DEQ 的训练和泛化提供了基础,为未来的研究奠定了基础。
Oct, 2023
研究神经网络的优化问题,发现常见的损失函数在实现空间上是凸的,通过使用神经网络的近似能力来处理非凸性问题,利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性,并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。
May, 2019
通过比较深度神经网络和宽度神经网络在 Sobolev 损失下的最佳泛化误差,研究了神经网络架构的构建问题,发现样本点数量、神经网络参数和损失函数的正则性等因素都会对神经网络架构产生显著影响,并将这一理论应用于解决偏微分方程的深度 Ritz 和受物理约束的神经网络(PINN)方法,从而指导神经网络的设计。
Jan, 2024