Feb, 2024
低秩学习设计:网络架构和激活线性在梯度秩崩溃中的作用
Low-Rank Learning by Design: the Role of Network Architecture and
Activation Linearity in Gradient Rank Collapse
TL;DR我们在深度神经网络的学习动态方面的理解仍然不完整。最近的研究开始揭示了这些网络的数学原理,包括“神经坍塌”现象,在训练的后期,DNN内的线性分类器会收敛到特定的几何结构。然而,几何约束在学习中的作用并不仅限于这个阶段。本文对DNN中的梯度秩进行了全面研究,研究了体系结构选择和数据结构对梯度秩界限的影响。我们的研究不仅有助于理解DNN中的学习动态,而且为深度学习工程师提供了实践指导,以便做出明智的设计决策。