懒人（NTK）和富人（μP）的领域：温和教程

Apr, 2024

懒人（NTK）和富人（μP）的领域：温和教程

The lazy (NTK) and rich ($μ$P) regimes: a gentle tutorial

Dhruva Karkada

TL;DR现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导，解释了以下事实：为了有效地训练宽网络，在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性：宽网络至少以类似核机器的方式进行懒惰训练，最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度，将最近的研究结果综合为一个连贯的整体，并提供支持我们的论点的实证证据。通过这样做，我们希望进一步研究丰富性尺度，因为它可能是发展实际深度神经网络特征学习的科学理论的关键。

Abstract

A central theme of the modern machine learning paradigm is that larger neural networks achieve better performance on a variety of metrics. Theoretical analyses of these overparameterized models have recently cent

machine learning neural networks overparameterized models hyperparameters feature learning

发现论文，激发创造

过度参数化模型中的核心和丰富区域

研究发现神经网络在过参量化后，当行为符合核化线性预测器时，在梯度下降的训练下能找到最小 RKHS 范数解；与此不同的是，梯度下降在过参量化的多层网络上可能引入不是 RKHS 范数的丰富隐性偏差。本文基于 Chizat 和 Bach 的观察，展示了初始化规模是如何控制多层同质模型中的 “核”（也称惰性）和 “丰富”（也称活动）区域之间的转换并影响泛化属性的。我们对一个简单的两层模型进行了全面而详细的分析，已经展示了核与丰富区域之间有一个有趣和有意义的转换，并展示了矩阵分解模型和多层非线性网络的转换。

Jun, 2019

从宏观角度解密神经网络的懒惰训练

通过研究神经网络训练动态，探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用，我们发现梯度下降可以快速将深层神经网络驱动至零训练误差，不论具体的初始化方案如何，只要输出函数的初始尺度超过一定阈值。这个区域被称为 theta-lazy 区域，突出了初始尺度在神经网络训练行为中的主导影响，同时我们还发现这个 theta-lazy 区域与神经切线核（NTK）范式有相似之处，但条件宽松。通过严格的分析，我们揭示了初始尺度 kappa 在神经网络训练动态中的关键作用。

Apr, 2024

深度神经网络中特征和懒惰训练的解耦

该论文针对深度学习的 Neural Tangent Kernel 极限和 Mean-Field 极限进行了研究，发现不同的调参可以使得网络在 lazy training 和 feature training 两种状态下表现不同，并提出了一种中间状态下集合平均方法可以提高性能。

Jun, 2019

大偏差下宽神经网络的收敛性和泛化性

该研究通过神经切向核（NTK）模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络，其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活，从而实现快速训练。结果表明，在稀疏化后，网络可以实现与密集网络一样快的收敛速度。其次，提供了宽度稀疏性的相关性，给出了一个稀疏性相关的 Rademacher 复杂度和泛化性能界限。最后，研究了极限 NTK 的最小特征值，发现可以使用可训练偏置来提高推广性。

Jan, 2023

快速致富：精确解揭示不平衡初始化是如何促进快速特征学习的

该研究揭示了神经网络中特征学习的机制及其对学习速度、初始值的敏感性，并提供了使用不平衡初始化来增强高效特征学习的理论依据。

Jun, 2024

为何学习率能够传递？调和深度学习的优化与扩展限制

最近的研究表明，神经网络的宽度和深度对于所谓的丰富特征学习极限（μP 及其深层延伸）的缩放存在转移学习现象，从而降低了超参数调整的成本。本研究通过实证找到了学习率转移的实验证据，并得出结论，在 μP 及其深层延伸下，训练损失 Hessian（即锋度）的最大特征值与网络的宽度和深度在持续训练时间内基本上是独立的。

Feb, 2024

可导编程中的懒惰训练

本文通过理论分析和数值实验，证明了惰性训练现象不仅仅局限于过度参数化的神经网络，同时也适用于其他优化问题，然而，在计算机视觉中，惰性训练并不适用于深度卷积神经网络的训练，这使得惰性训练很可能不是神经网络在高维任务中成功的原因之一。

Dec, 2018

深度宽神经网络的统计最优性

本文研究了深度神经网络的泛化能力问题，探讨了其与神经切向核回归的关系，并分析了核的谱性质，得出了多层宽神经网络使用梯度下降等算法在早期停止时能够获得最佳性能的结论。

May, 2023

神经特征学习中的帕累托前沿：数据、计算、宽度和运气

该研究调查了深度学习在计算统计差距存在的情况下的算法设计选择。通过考虑离线稀疏奇偶学习，一种多层感知器的梯度训练的统计查询下界，我们展示了稀疏初始化和增加网络宽度在样本效率方面的显著改进，以及合成稀疏奇偶任务对于需要轴对齐特征学习的真实问题的代理用途。

Sep, 2023

宽神经网络：从非高斯随机场的初始化到 NTK 训练几何

本文研究了具有大规模参数的人工神经网络，并探究了正态性的校正、宽神经网络的演化控制、与高概率训练的全局最小值等。

Apr, 2023