BriefGPT.xyz
大模型
Ask
alpha
关键词
low-rank bias
搜索结果 - 2
三层神经网络动力学:初始凝聚
通过理论分析,我们揭示了三层神经网络训练中凝聚现象的机制,并从二层神经网络训练中进行了区分。我们还建立了有效动力学的爆炸特性,并给出了凝聚现象发生的充分条件,并通过实验证实了这些发现。此外,我们探索了凝聚与深度矩阵分解中观察到的低秩偏差之间
→
PDF
4 months ago
神经排序崩溃:权重衰减和小的内类变异性带来低秩偏差
深度学习中的低秩偏好与神经网络的神经层塌陷现象相关,权重衰减参数的增长导致网络中每一层的秩与前一层隐藏空间嵌入的类内变异成正比减少。
PDF
5 months ago
Prev
Next