通过权重的谱动态来研究深度学习
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
研究深度神经网络的学习动态,主要关注于二元分类问题。我们证明了网络学习的各种性质,并且在非线性架构下,分类误差也呈现出sigmoid形状,证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响,并探讨了交叉熵和hinge损失对生成对抗网络训练的差异。最后,我们提出了梯度饥饿现象并进行了研究。
Sep, 2018
使用最先进的高维数值线性代数工具来有效近似现代深度学习网络巨大参数空间上的Hessian谱,研究发现该Hessian具有“尖峰”行为,同时分别分析各项的训练动态和样本大小变化情况。
Nov, 2018
研究优化过程中深度神经网络中Hessian谱的演化对动力学的影响,发现对于非批归一化网络,谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度,而批归一化网络中这两种效应几乎不存在。
Jan, 2019
研究表明,深度神经网络的学习偏差会在训练的后期阶段出现第二次下降,其高频分量也会因此减少,导致测试误差的第二次下降,而网络的频谱可以用于指示测试误差的第二次下降。
Apr, 2020
机器学习中的光谱几何信息提取是一种基于传统特征值解算器的大量方法之一,而为了应用于在线大数据场景,研究人员提出了Spectral Neural Network (SNN)作为一种替代方法,本文探索了SNN的关键理论方面,包括神经元数量和光谱几何信息学习量之间的权衡以及SNN的优化过程。
Oct, 2023
通过扩大神经网络的规模进行特征学习,我们展示了通过标度化权重矩阵和它们的更新的谱范数来实现特征学习,这是与根据Frobenius范数和条目大小进行启发式标度化方法相反的,同时我们的谱标度分析还导致了对最大更新参数化的基本推导,总之,我们旨在为读者提供神经网络特征学习的扎实概念理解。
Oct, 2023
我们通过分析神经网络中优化轨迹中包含的参数丰富结构,提出了一种全新的理解机制的方法。我们引入一些关于优化轨迹复杂性的自然概念,同时定性和定量地揭示了动量、权重衰减和批处理大小等各种优化选择之间的内在细微差别和相互作用。对于深度神经网络中优化的本质,当它进行得顺利时以及当它陷入瓶颈时,我们利用这些概念提供了关键特点。此外,得益于我们对优化轨迹的观点,我们发现动量和权重衰减之间存在相互交织的行为,促进了方向探索,并且其他一些行为则具有方向性的规范化行为。我们通过在大规模视觉和语言环境下进行实验证明了我们方法的价值,包括具有多达120亿参数的大型语言模型。
Mar, 2024
通过分析深度神经网络的重尾谱、梯度噪声和学习率等因素,我们揭示了深度神经网络在有限的训练步骤后可以生成重尾谱的机制,并研究了重尾谱与泛化能力之间的相关性。
Jun, 2024
本文研究了初始化对深线性神经网络学习动态的影响,填补了关于权重初始化如何影响网络表示演变的知识空白。作者提出了一种新的方法,通过拉姆达平衡初始化精确推导出学习动态的解决方案,揭示了从懒惰到富有学习模式的转变。研究结果加深了对初始化对学习模式影响的理论理解,具有持续学习、逆转学习和迁移学习的广泛应用潜力。
Sep, 2024