网络退化作为训练性能的指标：有限与无限角度预测的比较

MMJun, 2023

网络退化作为训练性能的指标：有限与无限角度预测的比较

Network Degeneracy as an Indicator of Training Performance: Comparing Finite and Infinite Width Angle Predictions

Cameron Jakub, Mihai Nica

TL;DR通过研究神经网络的退化现象，我们使用一个简单的算法来预测对任何给定的完全连接的 ReLu 网络结构的网络退化程度，并演示如何预测退化程度与网络的训练动力学有关。

Abstract

neural networks are powerful functions with widespread use, but the theoretical behaviour of these functions is not fully understood. Creating deep neural networks by stacking many layers has achieved exceptional

neural networks deep learning network degeneracy training dynamics relu

发现论文，激发创造

神经网络中的深度退化问题：初始化时全连接 ReLU 网络中角度逐渐趋近于 0

论文研究神经网络深度退化现象和该现象与两输入的夹角随层数变化的关系，使用组合拓展方法得出随着层数增加该夹角趋近于零的精确公式，并发现这些公式与相关高斯函数的混合矩和贝塞尔数之间存在意外的组合连接。

Feb, 2023

利用损失景观中的蜕变性进行机械解释

通过研究神经网络的权重和激活，以逆向工程神经网络算法为目标，机械可解释性旨在解析神经网络的算法。我们提出了 3 种网络参数退化的方法，并发展了一种指标来识别网络中的模块，以寻求一种对退化不敏感的表示方法，从而使得神经网络更易解释，而且更有可能具有较少的相互作用。我们介绍了一种称为交互基础的方法，它可以从激活或雅可比矩阵的线性相关性中获得一种对退化不敏感的表示。

May, 2024

前馈神经网络的深度优势

研究发现，对于几乎所有已知的激活函数类型，存在简单的（大致上是径向的）函数在 $ eals^d$ 上，可由小型三层前馈神经网络表达，但无法用任何二层网络近似到特定常数精度以上，除非它的宽度在指数级别。此结果证明了深度比宽度对于标准前馈神经网络的提升，即使只增加了 1 层，其价值也可以是指数级别。此外，相比于布尔函数相关研究，该结果需要更少的假设，并且证明技巧和构造方法非常不同。

Dec, 2015

神经网络中逼近自然函数的深度 - 宽度权衡

本文提供了一些新的基于深度的前馈神经网络分离结果，证明了各种类型的简单自然函数可以更好地用深层网络逼近比更浅的更大的网络，这包括指示球和椭圆体的指示器，$L_1$ 范数下径向非线性函数，以及平滑的非线性函数。我们还展示了这些差距的实验观察结果：当训练神经网络学习一个单位球的指示器时，增加深度比增加宽度更容易收敛学习。

Oct, 2016

任意深度的宽神经网络在梯度下降下演化为线性模型

本文研究神经网络的学习和泛化性能，发现对于宽神经网络，学习动态变得简单，并且在无限宽度的极限下，它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时，通过在广义上拟合高斯过程的理论，揭示了神经网络可能表现出高斯过程的特性。

Feb, 2019

深度网络中的特征学习与泛化及正交权重

完全连接的深度神经网络，其权重从独立的高斯分布初始化，可以调整到临界状态，阻止信号在网络中传播时呈指数增长或衰减。然而，这种网络仍然会表现出与网络深度线性增长的波动，这可能会削弱与深度相当的宽度网络的训练。我们在理论上证明了矩形网络与双曲正切激活函数以及从正交矩阵集合初始化权重，其相应的预激活波动与深度无关，以逆宽度为导数阶主导。此外，我们通过数值实验表明，初始化时在逆宽度方向上控制可观测量的演变的神经切向核（NTK）及其后代涉及的相关者的饱和深度约为 20，而不像高斯初始化的情况下无限增长。我们推测这种结构保留了有限宽度特征学习的同时，降低了整体噪声，从而改善了泛化能力和训练速度。通过将 NTK 的经验测量与深度非线性正交网络在 MNIST 和 CIFAR-10 分类任务上的卓越性能联系起来，我们提供了一些实验上的证明。

Oct, 2023

特征学习网络在现实规模下的宽度一致性

研究神经网络的宽度对特征学习动态的影响，探究网络结构，内部表示，预激活分布，稳定现象的一致性，以及相应的有限宽度偏差和频谱视角。

May, 2023

宽神经网络作为高斯过程：深度平衡模型的教训

当 DEQ 层的宽度趋近于无穷大时，它收敛到一个高斯过程，建立了所谓的神经网络和高斯过程 (NNGP) 的对应关系，这种收敛甚至在深度和宽度的极限互换的情况下也成立，这些发现为研究 DEQ 的训练和泛化提供了基础，为未来的研究奠定了基础。

Oct, 2023

ReLU 激活函数的神经网络参数化有多退化？

研究神经网络的优化问题，发现常见的损失函数在实现空间上是凸的，通过使用神经网络的近似能力来处理非凸性问题，利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性，并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。

May, 2019

深入还是扩展：从 Sobolev 损失的最优泛化误差角度出发

通过比较深度神经网络和宽度神经网络在 Sobolev 损失下的最佳泛化误差，研究了神经网络架构的构建问题，发现样本点数量、神经网络参数和损失函数的正则性等因素都会对神经网络架构产生显著影响，并将这一理论应用于解决偏微分方程的深度 Ritz 和受物理约束的神经网络（PINN）方法，从而指导神经网络的设计。

Jan, 2024