不含泪的 Transformer: 改进自注意力的规范化

Oct, 2019

不含泪的 Transformer: 改进自注意力的规范化

Transformers without Tears: Improving the Normalization of Self-Attention

Toan Q. Nguyen, Julian Salazar

TL;DR通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用，能够加速模型训练，使其更加稳定，从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。

Abstract

We evaluate three simple, normalization-centric changes to improve transformer training. First, we show that pre-norm residual connections (prenorm) and smaller initializations enable warmup-free, validation-base

transformer training prenorm scalenorm fixnorm low-resource translation

发现论文，激发创造

NormFormer: 更好的 Transformer 预训练模型，附加额外的归一化处理

NormFormer 结构通过在每一层中添加三种规范化操作，即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比，NormFormer 无需额外计算成本 (+0.4% 参数增加），对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外，NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度，或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。

Oct, 2021

DeepNet: 将 Transformer 扩展至 1,000 层

通过引入新的归一化函数（DeepNorm）来修改 Transformer 中的残差连接，并进行理论分析，提出了一种简单而有效的方法来稳定极深的 Transformers 模型。该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练，并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中，使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。

Mar, 2022

层归一化对零样本神经机器翻译的影响探究

本文探讨了层规范化 (LayerNorm) 对零 - shot 翻译 (ZST) 的影响。通过在 OPUS、IWSLT 和 Europarl 数据集上的 54 个 ZST 方向的实验，我们证明了在残差连接后 (PostNorm) 的原始 Transformer 设置通常比默认的层输入规范化 (PreNorm) 在 BLEU 值上提高了 12.3 点，同时研究了 PreNorm 和 PostNorm 之间的差异，强调了在 ZST 中需要对 LayerNorm 的设置进行仔细考虑。

May, 2023

通过深度缩放初始化和合并注意力改进深度 Transformer

本文研究了 NLP 中 Transformers 的深度网络结构存在的一些问题，提出了使用 DS-Init 和 MAtt 方法来解决梯度消失和计算效率问题，实验证明这些方法可以有效提升机器翻译的 BLEU 值。

Aug, 2019

Transformer 模型的查询键归一化

本文提出 QKNorm 方法，对 Transformer 神经网络的 attention 机制进行优化，在不损失表现力情况下，通过可以学习的参数替代平方根作为归一化时分母，减小了 softmax 函数的任意性饱和，实验表明在 5 种语言翻译任务中，较之前最先进的方法，BLEU 平均提高了 0.928 个点

Oct, 2020

Transformer 训练中参数范数增长的影响：梯度下降的归纳偏置

本篇论文通过研究 transformer 在训练过程中的参数增长情况，证明了网络逐渐逼近于饱和状态的离散网络模型，得出饱和性是梯度下降在自然语言处理中的一个新的归纳偏差并通过自注意力机制分析了 transformer 的不同注意力头的作用。

Oct, 2020

TransNormer 模型参数适配至 1750 亿

我们提出了 TransNormerLLM，这是第一个基于线性注意力的大型语言模型（LLM），在准确性和效率方面均超过了传统的基于 softmax 注意力的模型。

Jul, 2023

PowerNorm: 在 Transformer 中重新考虑批量归一化

本文研究了神经网络（NN）和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化（BN）之间的区别，分析了使用 BN 进行 NLP 任务时性能下降的原因，提出了一种通过放宽 BN 中的零均值正则化，引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN)，比 LN 和 BN 都表现更好。

Mar, 2020

注意力不仅仅是权重：用向量范数分析 Transformer

本文使用范数分析方法，证明注意力机制只是决定注意力输出的两个因素之一，通过对 BERT 和基于 Transformer 的神经机器翻译系统的范数分析，发现 BERT 没有很好地关注特殊的标记符号，并从 Transformer 的注意力机制中提取出合理的单词对齐，为理解 Transformers 的内部运作提供了洞见。

Apr, 2020

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022