Jun, 2022

论 Transformers 中的层标准化与残差连接

TL;DR研究表明,在使用深层 Transformers 训练时,Post-LN 有时会出现不稳定的情况,而 Pre-LN 的表现则相对更好,但在浅层 Transformers 中,Post-LN 的表现一直优于 Pre-LN。本文发现,Post-LN 的 LN 是导致不稳定训练的原因,而 Pre-LN 则可以防止这种情况。同时,在反向传播中,Post-LN 会保持更大的梯度范数,从而实现有效训练。基于这些发现,我们提出了一种简单修改后的方法,比 Pre-LN 更稳定,并在各种文本生成任务中表现出色。