Oct, 2021

NormFormer: 更好的 Transformer 预训练模型,附加额外的归一化处理

TL;DRNormFormer 结构通过在每一层中添加三种规范化操作,即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比,NormFormer 无需额外计算成本 (+0.4% 参数增加),对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外,NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度,或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。