Jan, 2023

大偏差下宽神经网络的收敛性和泛化性

TL;DR该研究通过神经切向核(NTK)模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络,其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活,从而实现快速训练。结果表明,在稀疏化后,网络可以实现与密集网络一样快的收敛速度。其次,提供了宽度稀疏性的相关性,给出了一个稀疏性相关的 Rademacher 复杂度和泛化性能界限。最后,研究了极限 NTK 的最小特征值,发现可以使用可训练偏置来提高推广性。