Jul, 2024

揭示ReLU Transformers中的层依赖激活稀疏模式

TL;DR对于在ReLU变换器中的MLPs,先前的研究表明它们呈现出很高的稀疏性,其中许多激活值为零。本文在此基础上进一步探索了训练过程中令牌级稀疏性的演化以及它与序列或批次的更广泛稀疏模式之间的关系,明确指出小型变换器中的不同层在这两个方面都呈现出明显的层特异性模式。特别地,我们证明了网络的第一层和最后一层与稀疏性具有独特且在许多方面相反的关系,并探讨了在模型不同深度学习中所学到的特征表达结构的含义。此外,我们还探讨了ReLU维度“关闭”的现象,并展示了证据表明“神经元死亡”主要受训练动态驱动,而不仅仅是由于离群值的随机或意外产生。