Transformer 架构中的层标准化
研究表明,在使用深层 Transformers 训练时,Post-LN 有时会出现不稳定的情况,而 Pre-LN 的表现则相对更好,但在浅层 Transformers 中,Post-LN 的表现一直优于 Pre-LN。本文发现,Post-LN 的 LN 是导致不稳定训练的原因,而 Pre-LN 则可以防止这种情况。同时,在反向传播中,Post-LN 会保持更大的梯度范数,从而实现有效训练。基于这些发现,我们提出了一种简单修改后的方法,比 Pre-LN 更稳定,并在各种文本生成任务中表现出色。
Jun, 2022
提出一种名为统一归一化(UN)的新型网络层归一化方法,通过采用适合的波动整理策略校准激活和梯度统计数据,以避免过多迭代波动和极端异常值的问题,并应用自适应离群值筛选策略以避免训练崩溃。通过在语言和视觉任务上的广泛实验,验证了 UN 作为 LN 的高效替代方法,可以加快推理速度约 31%,减少内存约 18%。
Aug, 2022
本文探讨了层规范化 (LayerNorm) 对零 - shot 翻译 (ZST) 的影响。通过在 OPUS、IWSLT 和 Europarl 数据集上的 54 个 ZST 方向的实验,我们证明了在残差连接后 (PostNorm) 的原始 Transformer 设置通常比默认的层输入规范化 (PreNorm) 在 BLEU 值上提高了 12.3 点,同时研究了 PreNorm 和 PostNorm 之间的差异,强调了在 ZST 中需要对 LayerNorm 的设置进行仔细考虑。
May, 2023
本文研究了神经网络(NN)和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化(BN)之间的区别,分析了使用 BN 进行 NLP 任务时性能下降的原因,提出了一种通过放宽 BN 中的零均值正则化,引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN),比 LN 和 BN 都表现更好。
Mar, 2020
通过引入新的归一化函数(DeepNorm)来修改 Transformer 中的残差连接,并进行理论分析,提出了一种简单而有效的方法来稳定极深的 Transformers 模型。 该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练,并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中,使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。
Mar, 2022
通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用,能够加速模型训练,使其更加稳定,从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。
Oct, 2019
本文提出了一种仅利用 0.03% 参数的 LN-tuning 方法,通过调整 Layer Normalization 模块的增益和偏置项,实现对 PLMs 的参数高效调整,同时研究了将 LN-tuning 与其他先前方法相结合的统一框架,在 MHA 和 LayerNorm 同时调整的情况下可以获得性能提升,但在 FFN 和 LayerNorm 同时调整的情况下将导致性能下降,该方法实现了 SOTA 的性能表现。
Nov, 2022
本文提出了一种方法通过去除 Pre-LN Transformers 的冗余均值信息,将 LayerNorm 转化为 RMSNorm 以取得更高效率,进一步提出了一种基于无损压缩的 CRMSNorm Transformer, 实验证明,这种方法可将 Pre-LN Transformers 的训练和推断时间缩短高达 10%。
May, 2023
NormFormer 结构通过在每一层中添加三种规范化操作,即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比,NormFormer 无需额外计算成本 (+0.4% 参数增加),对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外,NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度,或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。
Oct, 2021
本研究提出了一种新的 Transformer 结构 ResiDual,它融合了 Post-Layer-Normalization 和 Pre-Layer-Normalization 的优点,同时避免了它们的缺点,有效地解决了 Transformer 中残差连接的实现问题,并在多个机器翻译基准测试中取得了超过现有模型的优异表现,可以作为不同人工智能模型(例如大型语言模型)的基础架构。
Apr, 2023