Sep, 2023

我们需要多少个神经元?使用梯度下降算法训练的浅层网络的精细分析

TL;DR我们在神经切向核(NTK)范围内对使用梯度下降(GD)训练的两层神经网络的泛化性质进行分析,对于早停止的 GD,我们得到了在再现核希尔伯特空间的非参数回归框架中已知为最小化最优的快速收敛速度;在此过程中,我们准确地跟踪了泛化所需的隐藏神经元的数量,并改进了现有的结果;此外,我们进一步展示了在训练过程中,权重保持在初始化附近的一个领域内,该半径取决于回归函数的平滑度和与 NTK 相关的积分算子的特征值衰减等结构假设。