特征学习如何改善神经网络缩放法则
在深度神经网络训练中,训练动力学与损失面的几何形态和时空变化紧密关联,揭示了深度学习过程中快速的混沌瞬变和稳定状态之间的显著关系。
Oct, 2020
该研究提出了一种理论,解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系,并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。
Feb, 2021
研究了有限宽度效应及特征学习在神经网络中的动力学特性,通过动力学平均场理论描述了无穷宽深度神经网络内核和预测动力学,并证明了特征学习可以降低终极NTK和终极网络预测的方差。
Apr, 2023
通过扩大神经网络的规模进行特征学习,我们展示了通过标度化权重矩阵和它们的更新的谱范数来实现特征学习,这是与根据Frobenius范数和条目大小进行启发式标度化方法相反的,同时我们的谱标度分析还导致了对最大更新参数化的基本推导,总之,我们旨在为读者提供神经网络特征学习的扎实概念理解。
Oct, 2023
我们通过分析一个隐藏层模型的相图,发现其具有核心相和特征学习相,并研究了包括宽度、层内学习率、输出尺度和初始化尺度等超参数各种可能的极限情况。我们运用这一结果在无限宽度和有限宽度模型中分析特征学习的发生方式和时机,通过对齐、失对齐和重新缩放等原型机制找到了特征学习的三种方式。与此形成鲜明对比的是,当模型处于核心相时,这些机制均不存在,这一发现解释了为何大初始化经常导致性能下降。最后,我们通过实验证明了在真实任务的非线性网络中也出现了我们在这个分析模型中的发现。
Jan, 2024
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以$1/ extit{width}$的速度收敛到无限宽度动力学,但在后期表现为$ extit{width}^{-c}$的速度,其中$c$取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
无限宽度架构,如神经切向核 (NTK) 在过去显示出与有限模型相比较弱的性能。我们证明这并非如此,实际上,我们展示无限宽度的 NTK 模型能够通过从无限特征向量中选择相关子特征来访问更丰富的特征。事实上,我们实验性地表明,即使在关闭特征学习的情况下,NTK 仍不如传统的有限模型性能好。相反,性能不佳是因为现有的构造依赖于像 SGD 这样的弱优化器。我们提供了基于类似于 ADAM 的学习动力学的无限宽度极限,并通过实验证明生成的模型消除了性能差距。
Jun, 2024
通过建立信息论基础,我们研究了神经缩放定律,并揭示了在无限宽度的两层神经网络生成的数据中,数据和模型大小的最佳关系大致呈线性,进一步验证了大规模的实证研究结果。
Jun, 2024
本研究旨在解决神经网络规模与数据量对性能提升影响的缺口。提出了一种新颖的理论框架,展示模型规模、训练时间和数据量三者如何相互影响,形成规模时间等价性。这一发现不仅挑战了目前的小模型短训练时间的实践,还为评估和优化大型网络性能提供了预测方法,具有重要的实际应用价值。
Sep, 2024