Oct, 2023

深度网络中的特征学习与泛化及正交权重

TL;DR完全连接的深度神经网络,其权重从独立的高斯分布初始化,可以调整到临界状态,阻止信号在网络中传播时呈指数增长或衰减。然而,这种网络仍然会表现出与网络深度线性增长的波动,这可能会削弱与深度相当的宽度网络的训练。我们在理论上证明了矩形网络与双曲正切激活函数以及从正交矩阵集合初始化权重,其相应的预激活波动与深度无关,以逆宽度为导数阶主导。此外,我们通过数值实验表明,初始化时在逆宽度方向上控制可观测量的演变的神经切向核(NTK)及其后代涉及的相关者的饱和深度约为 20,而不像高斯初始化的情况下无限增长。我们推测这种结构保留了有限宽度特征学习的同时,降低了整体噪声,从而改善了泛化能力和训练速度。通过将 NTK 的经验测量与深度非线性正交网络在 MNIST 和 CIFAR-10 分类任务上的卓越性能联系起来,我们提供了一些实验上的证明。