Transformer 架构中的层标准化

Feb, 2020

On Layer Normalization in the Transformer Architecture

Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng...

TL;DR本文证明了学习率预热阶段对于 Post-LN Transformer 是必要的，并提出了一种新的 Pre-LN Transformer 结构，该结构无需预热阶段，同时具有与基线相当的性能，大大减少了训练时间和超参数调整。

Abstract

The transformer is widely used in natural language processing tasks. To train a transformer however, one usually needs a carefully designed learning rate warm-up stage, which is shown to be crucial to the final p

transformer learning rate warm-up layer normalization post-ln transformer pre-ln transformer

发现论文，激发创造

论 Transformers 中的层标准化与残差连接

研究表明，在使用深层 Transformers 训练时，Post-LN 有时会出现不稳定的情况，而 Pre-LN 的表现则相对更好，但在浅层 Transformers 中，Post-LN 的表现一直优于 Pre-LN。本文发现，Post-LN 的 LN 是导致不稳定训练的原因，而 Pre-LN 则可以防止这种情况。同时，在反向传播中，Post-LN 会保持更大的梯度范数，从而实现有效训练。基于这些发现，我们提出了一种简单修改后的方法，比 Pre-LN 更稳定，并在各种文本生成任务中表现出色。

Jun, 2022

加速和稳定 Transformer 的统一规范化

提出一种名为统一归一化（UN）的新型网络层归一化方法，通过采用适合的波动整理策略校准激活和梯度统计数据，以避免过多迭代波动和极端异常值的问题，并应用自适应离群值筛选策略以避免训练崩溃。通过在语言和视觉任务上的广泛实验，验证了 UN 作为 LN 的高效替代方法，可以加快推理速度约 31％，减少内存约 18％。

Aug, 2022

层归一化对零样本神经机器翻译的影响探究

本文探讨了层规范化 (LayerNorm) 对零 - shot 翻译 (ZST) 的影响。通过在 OPUS、IWSLT 和 Europarl 数据集上的 54 个 ZST 方向的实验，我们证明了在残差连接后 (PostNorm) 的原始 Transformer 设置通常比默认的层输入规范化 (PreNorm) 在 BLEU 值上提高了 12.3 点，同时研究了 PreNorm 和 PostNorm 之间的差异，强调了在 ZST 中需要对 LayerNorm 的设置进行仔细考虑。

May, 2023

PowerNorm: 在 Transformer 中重新考虑批量归一化

本文研究了神经网络（NN）和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化（BN）之间的区别，分析了使用 BN 进行 NLP 任务时性能下降的原因，提出了一种通过放宽 BN 中的零均值正则化，引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN)，比 LN 和 BN 都表现更好。

Mar, 2020

DeepNet: 将 Transformer 扩展至 1,000 层

通过引入新的归一化函数（DeepNorm）来修改 Transformer 中的残差连接，并进行理论分析，提出了一种简单而有效的方法来稳定极深的 Transformers 模型。该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练，并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中，使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。

Mar, 2022

不含泪的 Transformer: 改进自注意力的规范化

通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用，能够加速模型训练，使其更加稳定，从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。

Oct, 2019

预训练语言模型层归一化参数有效调整

本文提出了一种仅利用 0.03% 参数的 LN-tuning 方法，通过调整 Layer Normalization 模块的增益和偏置项，实现对 PLMs 的参数高效调整，同时研究了将 LN-tuning 与其他先前方法相结合的统一框架，在 MHA 和 LayerNorm 同时调整的情况下可以获得性能提升，但在 FFN 和 LayerNorm 同时调整的情况下将导致性能下降，该方法实现了 SOTA 的性能表现。

Nov, 2022

Pre-RMSNorm 与 Pre-CRMSNorm 变压器：等效且高效的 Pre-LN 变压器

本文提出了一种方法通过去除 Pre-LN Transformers 的冗余均值信息，将 LayerNorm 转化为 RMSNorm 以取得更高效率，进一步提出了一种基于无损压缩的 CRMSNorm Transformer，实验证明，这种方法可将 Pre-LN Transformers 的训练和推断时间缩短高达 10%。

May, 2023

NormFormer: 更好的 Transformer 预训练模型，附加额外的归一化处理

NormFormer 结构通过在每一层中添加三种规范化操作，即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比，NormFormer 无需额外计算成本 (+0.4% 参数增加），对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外，NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度，或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。

Oct, 2021

ResiDual：带有双重残差连接的 Transformer 模型

本研究提出了一种新的 Transformer 结构 ResiDual，它融合了 Post-Layer-Normalization 和 Pre-Layer-Normalization 的优点，同时避免了它们的缺点，有效地解决了 Transformer 中残差连接的实现问题，并在多个机器翻译基准测试中取得了超过现有模型的优异表现，可以作为不同人工智能模型（例如大型语言模型）的基础架构。

Apr, 2023