Feb, 2024

三层神经网络动力学:初始凝聚

TL;DR通过理论分析,我们揭示了三层神经网络训练中凝聚现象的机制,并从二层神经网络训练中进行了区分。我们还建立了有效动力学的爆炸特性,并给出了凝聚现象发生的充分条件,并通过实验证实了这些发现。此外,我们探索了凝聚与深度矩阵分解中观察到的低秩偏差之间的关联。