Jun, 2024

Transformer 规范化层与语义子空间的独立性

TL;DR传统的预归一化(Pre-Norm)方法在 transformer 模型中引入线性子空间干扰,导致电路塌陷现象;相比之下,将归一化操作放在注意力头的线性操作之后(QKV-Norm)能更好地保持表示的稳定性。