论 Transformers 中的层标准化与残差连接

Jun, 2022

论 Transformers 中的层标准化与残差连接

On Layer Normalizations and Residual Connections in Transformers

Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki

TL;DR研究表明，在使用深层 Transformers 训练时，Post-LN 有时会出现不稳定的情况，而 Pre-LN 的表现则相对更好，但在浅层 Transformers 中，Post-LN 的表现一直优于 Pre-LN。本文发现，Post-LN 的 LN 是导致不稳定训练的原因，而 Pre-LN 则可以防止这种情况。同时，在反向传播中，Post-LN 会保持更大的梯度范数，从而实现有效训练。基于这些发现，我们提出了一种简单修改后的方法，比 Pre-LN 更稳定，并在各种文本生成任务中表现出色。

Abstract

In the perspective of a layer normalization (LN) position, the architecture of transformers can be categorized into two types: post-ln and

transformers layer normalization post-ln pre-ln text generation

发现论文，激发创造

Transformer 架构中的层标准化

本文证明了学习率预热阶段对于 Post-LN Transformer 是必要的，并提出了一种新的 Pre-LN Transformer 结构，该结构无需预热阶段，同时具有与基线相当的性能，大大减少了训练时间和超参数调整。

Feb, 2020

ResiDual：带有双重残差连接的 Transformer 模型

本研究提出了一种新的 Transformer 结构 ResiDual，它融合了 Post-Layer-Normalization 和 Pre-Layer-Normalization 的优点，同时避免了它们的缺点，有效地解决了 Transformer 中残差连接的实现问题，并在多个机器翻译基准测试中取得了超过现有模型的优异表现，可以作为不同人工智能模型（例如大型语言模型）的基础架构。

Apr, 2023

DeepNet: 将 Transformer 扩展至 1,000 层

通过引入新的归一化函数（DeepNorm）来修改 Transformer 中的残差连接，并进行理论分析，提出了一种简单而有效的方法来稳定极深的 Transformers 模型。该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练，并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中，使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。

Mar, 2022

层归一化对零样本神经机器翻译的影响探究

本文探讨了层规范化 (LayerNorm) 对零 - shot 翻译 (ZST) 的影响。通过在 OPUS、IWSLT 和 Europarl 数据集上的 54 个 ZST 方向的实验，我们证明了在残差连接后 (PostNorm) 的原始 Transformer 设置通常比默认的层输入规范化 (PreNorm) 在 BLEU 值上提高了 12.3 点，同时研究了 PreNorm 和 PostNorm 之间的差异，强调了在 ZST 中需要对 LayerNorm 的设置进行仔细考虑。

May, 2023

加速和稳定 Transformer 的统一规范化

提出一种名为统一归一化（UN）的新型网络层归一化方法，通过采用适合的波动整理策略校准激活和梯度统计数据，以避免过多迭代波动和极端异常值的问题，并应用自适应离群值筛选策略以避免训练崩溃。通过在语言和视觉任务上的广泛实验，验证了 UN 作为 LN 的高效替代方法，可以加快推理速度约 31％，减少内存约 18％。

Aug, 2022

PowerNorm: 在 Transformer 中重新考虑批量归一化

本文研究了神经网络（NN）和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化（BN）之间的区别，分析了使用 BN 进行 NLP 任务时性能下降的原因，提出了一种通过放宽 BN 中的零均值正则化，引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN)，比 LN 和 BN 都表现更好。

Mar, 2020

Pre-RMSNorm 与 Pre-CRMSNorm 变压器：等效且高效的 Pre-LN 变压器

本文提出了一种方法通过去除 Pre-LN Transformers 的冗余均值信息，将 LayerNorm 转化为 RMSNorm 以取得更高效率，进一步提出了一种基于无损压缩的 CRMSNorm Transformer，实验证明，这种方法可将 Pre-LN Transformers 的训练和推断时间缩短高达 10%。

May, 2023

批归一化在自然语言处理中 Transformer 失败的原因

通过量化训练与推理之间的不一致性，证明了 BN 在 NLP 中表现较差的主要原因，并提出了一种正则化方法 RBN，可以显著改善 BN 在 Transformer 模型上的性能。

Oct, 2022

基础 Transformer

本研究提出了一种新型的 Transformer 变种 ——Magneto，其引入了 Sub-LayerNorm 来提高表达能力，并从 DeepNet 导出了一种初始化策略以保证稳定的扩展性，旨在成为一个通用的架构，提高多任务和多模态任务的训练稳定性和性能。与目前设计用于各种应用的变种相比，Magneto 展现了更好的性能和稳定性。

Oct, 2022

NormFormer: 更好的 Transformer 预训练模型，附加额外的归一化处理

NormFormer 结构通过在每一层中添加三种规范化操作，即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比，NormFormer 无需额外计算成本 (+0.4% 参数增加），对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外，NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度，或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。

Oct, 2021