特征学习网络在现实规模下的宽度一致性
研究发现,对于新任务的神经网络,学习特征的可转移性可以大幅减少训练成本;通过使用激活图谱技术研究网络宽度对学习特征的影响,并表明增加网络宽度可以显著提高针对新任务的性能表现。
Sep, 2019
本篇研究通过探究深度和宽度对模型隐藏表示的影响,发现一个特征块结构,这个结构是相对于训练集大小而言容量较大(更宽 / 更深)的模型中隐藏表示的一种保留和传播主要成分的方式。该发现对不同模型学习的特征有重要影响,其代表性的块结构对于每个模型来说是独一无二的。最后,我们分析了不同模型体系结构的输出预测,发现即使整体准确率相似,宽而深的模型也表现出不同类别之间鲜明的错误模式和差异。
Oct, 2020
研究了有限宽度效应及特征学习在神经网络中的动力学特性,通过动力学平均场理论描述了无穷宽深度神经网络内核和预测动力学,并证明了特征学习可以降低终极 NTK 和终极网络预测的方差。
Apr, 2023
本文研究神经网络的学习和泛化性能,发现对于宽神经网络,学习动态变得简单,并且在无限宽度的极限下,它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时,通过在广义上拟合高斯过程的理论,揭示了神经网络可能表现出高斯过程的特性。
Feb, 2019
深度神经网络在各种环境中表现出前沿的性能,但在按顺序训练新任务时往往会出现 “灾难性遗忘”。本研究设计了一个框架来分析连续学习理论,并证明网络宽度与遗忘之间存在直接关系。具体而言,我们证明增加网络宽度以减少遗忘产生递减的效果,我们在以前的研究中未曾探索过的宽度范围上通过实验证实了我们理论的预测,清晰地观察到这种递减效果。
Mar, 2024
在此研究中,我们对多输出和卷积层的有限宽度结构的函数统计提供了严格的结果,从而更接近完整描述贝叶斯设置中特征学习的过程。我们的结果包括:(i)一个对于输出的联合先验分布的确切且简单的非渐近积分表示,以高斯混合形式给出;(ii)在均方误差损失函数(高斯似然)的情况下,后验分布的解析公式;(iii)利用大偏差理论对特征学习无限宽度域进行定量描述。从物理角度看,具有多个输出或卷积层的深层结构代表了核形状重整化的不同表现形式,我们的工作提供了将这种物理直觉和术语转化为严格的贝叶斯统计的字典。
Jun, 2024
研究表明,标准和 NTK 参数化的神经网络不能学习特征,这对于预训练和转移学习至关重要。通过修改标准参数化,使用 Tensor Programs 技术,我们计算了神经网络的极限,并发现其表现优于 NTK 基线和有限宽网络。
Nov, 2020
无限宽度架构,如神经切向核 (NTK) 在过去显示出与有限模型相比较弱的性能。我们证明这并非如此,实际上,我们展示无限宽度的 NTK 模型能够通过从无限特征向量中选择相关子特征来访问更丰富的特征。事实上,我们实验性地表明,即使在关闭特征学习的情况下,NTK 仍不如传统的有限模型性能好。相反,性能不佳是因为现有的构造依赖于像 SGD 这样的弱优化器。我们提供了基于类似于 ADAM 的学习动力学的无限宽度极限,并通过实验证明生成的模型消除了性能差距。
Jun, 2024
通过超参寻优与一系列不同的神经网络模型,我们探究了过度参数化情况下随机梯度下降最终调整到的参数状态,并发现优化算法的最优超参数取决于一项被规范化的噪声参数,其与网络宽度等因素有关,这对各种类型的神经网络均成立,对于 ResNets 这样的网络同样存在相似的趋势。
May, 2019
我们通过分析一个隐藏层模型的相图,发现其具有核心相和特征学习相,并研究了包括宽度、层内学习率、输出尺度和初始化尺度等超参数各种可能的极限情况。我们运用这一结果在无限宽度和有限宽度模型中分析特征学习的发生方式和时机,通过对齐、失对齐和重新缩放等原型机制找到了特征学习的三种方式。与此形成鲜明对比的是,当模型处于核心相时,这些机制均不存在,这一发现解释了为何大初始化经常导致性能下降。最后,我们通过实验证明了在真实任务的非线性网络中也出现了我们在这个分析模型中的发现。
Jan, 2024