Apr, 2024

懒人(NTK)和富人(μP)的领域:温和教程

TL;DR现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导,解释了以下事实:为了有效地训练宽网络,在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性:宽网络至少以类似核机器的方式进行懒惰训练,最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度,将最近的研究结果综合为一个连贯的整体,并提供支持我们的论点的实证证据。通过这样做,我们希望进一步研究丰富性尺度,因为它可能是发展实际深度神经网络特征学习的科学理论的关键。