深度网络黑匣子中的彩虹
我们提供了一种针对大类特征映射的紧密渐近特征错误的表征,其中输入维度、隐藏层宽度和训练样本数在高维极限下成比例增加。我们的工作部分是受到了学习具有高斯彩虹神经网络的问题的启发,即具有随机但结构化权重的深层非线性全连接网络,它们的行协方差进一步允许依赖于前层的权重。对于这样的网络,我们还推导了一种以权重矩阵为基础的特征协方差的闭合形式公式。我们进一步发现,在某些情况下,我们的结果能够捕捉到通过梯度下降训练的深度有限宽度神经网络学得的特征映射。
Feb, 2024
发现深度 ReLU 网络(或多层感知器架构)表现出 ' 过度泛化 ' 现象并利用这一特性设计了数据集炫斑网络,称为 ' 生成炫斑网络 '。此现象在其他深度学习架构(如 CNNs、Transformers 和 U-Nets)中也观察到,并正在进一步研究。
Feb, 2024
使用未训练的卷积神经网络,创建新的生成模型,用于图像重建、纹理合成和样式转换等深度可视化任务,并发现了新的深度网络结构表示学习的一些特性和规律。
Jun, 2016
完全连接的深度神经网络,其权重从独立的高斯分布初始化,可以调整到临界状态,阻止信号在网络中传播时呈指数增长或衰减。然而,这种网络仍然会表现出与网络深度线性增长的波动,这可能会削弱与深度相当的宽度网络的训练。我们在理论上证明了矩形网络与双曲正切激活函数以及从正交矩阵集合初始化权重,其相应的预激活波动与深度无关,以逆宽度为导数阶主导。此外,我们通过数值实验表明,初始化时在逆宽度方向上控制可观测量的演变的神经切向核(NTK)及其后代涉及的相关者的饱和深度约为 20,而不像高斯初始化的情况下无限增长。我们推测这种结构保留了有限宽度特征学习的同时,降低了整体噪声,从而改善了泛化能力和训练速度。通过将 NTK 的经验测量与深度非线性正交网络在 MNIST 和 CIFAR-10 分类任务上的卓越性能联系起来,我们提供了一些实验上的证明。
Oct, 2023
本文利用黎曼几何和高维混沌的平均场理论相结合,研究了具有随机权重的通用深度神经网络中信号传播的性质。我们的研究结果揭示了从秩序相到混沌相的表达能力相变,并证明了浅层网络无法高效地计算这种深度随机函数族。此外,我们定量证明了深度网络可以将输入空间中高度曲率的流形分解成隐藏空间中的平坦流形。
Jun, 2016
我们研究了具有随机初始化参数和修正线性单元激活函数的大类浅层神经网络,并证明了这些随机神经网络是良定义的非高斯过程,由脉冲白噪声(随机狄拉克测度的组合)驱动的随机微分方程的解。这些过程由权重和偏置的分布以及输入域中每个有界区域中激活阈值的密度所参数化。我们证明这些过程是等向的,同时具有 Hurst 指数为 3/2 的广义自相似性,并导出了它们的自协方差函数的一个非常简单的闭式表达式。我们的结果从非渐近的视角来看与先前的工作有本质不同:输入域中每个有界区域(即宽度)的神经元数量本身是一个具有泊松分布的随机变量,并且其均值与密度参数成比例。最后,我们证明在适当的假设下,当期望宽度趋于无穷大时,这些过程除了能收敛到高斯过程外,还能收敛到依赖于权重分布的非高斯过程。我们的渐近结果提供了一种新的方法来看待几个经典结果(宽网络收敛到高斯过程)以及一些新结果(宽网络可以收敛到非高斯过程)。
May, 2024
本文扩展了 Matthews 等人 (2018) 的重要证明,针对一类更大的初始权重分布(我们称之为 PSEUDO-IID),包括 IID 和正交权重,以及计算速度加快的低秩和结构稀疏设置。我们展示了使用 PSEUDO-IID 分布初始化的全连接和卷积网络在方差上是等价的,通过这些结果,可以为更广泛的神经网络识别边缘混沌,并调整它们以提高训练效果。
Oct, 2023
本研究结合随机神经网络和张量程序的概念,研究了神经网络的收敛性和梯度动态性,在多种不同体系下,从而表明了该框架不仅可以引导更强的高斯过程的设计,而且还可以深入理解现代架构中的 SGD 动态。
Feb, 2019
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性,并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。
Jan, 2022