前馈神经网络中的活动 - 权重对偶:泛化的几何决定因素
使用局部稳定性分析的数学框架,我们研究了前馈神经网络学习动力学的深层理解,推导了三层神经网络在学习回归任务时的切线算子方程,结果适用于任意节点数和任意激活函数的选择。我们通过数值方法应用这些结果于网络学习回归任务中,调查了稳定性指标与最终训练损失之间的关系。虽然具体结果会因初始条件和激活函数的不同而有所变化,我们证明了通过监测训练过程中的有限时间 Lyapunov 指数或协变 Lyapunov 向量,可以预测最终的训练损失。
Apr, 2024
在人工神经网络中,非可训练变量的激活动力学与可训练变量的学习动力学强烈耦合。研究表明通过两种映射的组合建立了非可训练边界变量的子空间(例如数据集)与可训练变量的切向子空间(即学习)之间的对偶映射,可以研究临界性的出现以及可训练变量波动的幂律分布的特性。
May, 2024
完全连接的深度神经网络,其权重从独立的高斯分布初始化,可以调整到临界状态,阻止信号在网络中传播时呈指数增长或衰减。然而,这种网络仍然会表现出与网络深度线性增长的波动,这可能会削弱与深度相当的宽度网络的训练。我们在理论上证明了矩形网络与双曲正切激活函数以及从正交矩阵集合初始化权重,其相应的预激活波动与深度无关,以逆宽度为导数阶主导。此外,我们通过数值实验表明,初始化时在逆宽度方向上控制可观测量的演变的神经切向核(NTK)及其后代涉及的相关者的饱和深度约为 20,而不像高斯初始化的情况下无限增长。我们推测这种结构保留了有限宽度特征学习的同时,降低了整体噪声,从而改善了泛化能力和训练速度。通过将 NTK 的经验测量与深度非线性正交网络在 MNIST 和 CIFAR-10 分类任务上的卓越性能联系起来,我们提供了一些实验上的证明。
Oct, 2023
基于几何 (克利福德) 代数和凸优化,我们介绍了一种新的神经网络分析方法,显示出深度 ReLU 神经网络的最优权重是通过训练样本的外积给出的,并且训练问题可以化简为对外积特征进行凸优化,这些特征编码了训练数据集的几何结构,其中几何结构通过数据向量生成的三角形和平行六面体的符号体积给出。
Sep, 2023
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019
该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现,训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,我们解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性,该关系取决于特征值的大小,使我们能够识别网络内的参数方向。此外,通过奇异值分解,我们对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。此外,我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性,特别是更大的特征值更集中在深层。最后,基于我们的发现,我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战,通过应用我们的发现,我们提出了一种有效的策略来缓解这种遗忘,这个策略可以适用于不同规模的网络,包括更大的架构。
Nov, 2023
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
研究发现,神经网络在存在噪声或不正确标签的情况下,往往会记住有关噪声的信息。为了减少这种记忆现象,提高泛化能力,本文提出使用一个辅助网络来训练,并利用 Shannon 互信息量化记忆的信息量。在 MNIST、CIFAR-10、CIFAR-100 和 Clothing1M 等数据集上验证了该算法的有效性。
Feb, 2020
通过研究神经网络的权重和激活,以逆向工程神经网络算法为目标,机械可解释性旨在解析神经网络的算法。我们提出了 3 种网络参数退化的方法,并发展了一种指标来识别网络中的模块,以寻求一种对退化不敏感的表示方法,从而使得神经网络更易解释,而且更有可能具有较少的相互作用。我们介绍了一种称为交互基础的方法,它可以从激活或雅可比矩阵的线性相关性中获得一种对退化不敏感的表示。
May, 2024