BriefGPT.xyz
大模型
Ask
alpha
关键词
gradient rank
搜索结果 - 1
低秩学习设计:网络架构和激活线性在梯度秩崩溃中的作用
我们在深度神经网络的学习动态方面的理解仍然不完整。最近的研究开始揭示了这些网络的数学原理,包括 “神经坍塌” 现象,在训练的后期,DNN 内的线性分类器会收敛到特定的几何结构。然而,几何约束在学习中的作用并不仅限于这个阶段。本文对 DNN
→
PDF
5 months ago
Prev
Next