Feb, 2024

低秩学习设计:网络架构和激活线性在梯度秩崩溃中的作用

TL;DR我们在深度神经网络的学习动态方面的理解仍然不完整。最近的研究开始揭示了这些网络的数学原理,包括 “神经坍塌” 现象,在训练的后期,DNN 内的线性分类器会收敛到特定的几何结构。然而,几何约束在学习中的作用并不仅限于这个阶段。本文对 DNN 中的梯度秩进行了全面研究,研究了体系结构选择和数据结构对梯度秩界限的影响。我们的研究不仅有助于理解 DNN 中的学习动态,而且为深度学习工程师提供了实践指导,以便做出明智的设计决策。