BranchNorm: 极深 Transformer 网络的鲁棒缩放

May, 2023

BranchNorm: 极深 Transformer 网络的鲁棒缩放

BranchNorm: Robustly Scaling Extremely Deep Transformers

Yijin Liu, Xianfeng Zeng, Fandong Meng, Jie Zhou

TL;DR本文提出了一种名为 BranchNorm 的方法，用于以更好的效果平衡训练稳定性和收敛性来动态重新调整 Transformer 的分支。

Abstract

Recently, deepnorm scales transformers into extremely deep (i.e., 1000 layers) and reveals the promising potential of deep scaling. To stabilize the training of deep models, →

deepnorm transformers branchnorm training stability converge performance

发现论文，激发创造

DeepNet: 将 Transformer 扩展至 1,000 层

通过引入新的归一化函数（DeepNorm）来修改 Transformer 中的残差连接，并进行理论分析，提出了一种简单而有效的方法来稳定极深的 Transformers 模型。该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练，并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中，使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。

Mar, 2022

不含泪的 Transformer: 改进自注意力的规范化

通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用，能够加速模型训练，使其更加稳定，从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。

Oct, 2019

FoundationLayerNorm: 将 BERT 和 GPT 扩展至 1,000 层

本研究提出了一种简单有效的方法，使用 FoundationLayerNormalization 可以实现深度学习神经网络的高效训练。作者成功地将 BERT 和 GPT 升级到 1,000 层，比之前的模型深度大数个数量级。

Apr, 2022

PowerNorm: 在 Transformer 中重新考虑批量归一化

本文研究了神经网络（NN）和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化（BN）之间的区别，分析了使用 BN 进行 NLP 任务时性能下降的原因，提出了一种通过放宽 BN 中的零均值正则化，引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN)，比 LN 和 BN 都表现更好。

Mar, 2020

NormFormer: 更好的 Transformer 预训练模型，附加额外的归一化处理

NormFormer 结构通过在每一层中添加三种规范化操作，即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比，NormFormer 无需额外计算成本 (+0.4% 参数增加），对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外，NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度，或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。

Oct, 2021

超越均匀缩放：探索神经结构中的深度异质性

基于第二阶损失景观信息的自动缩放方法，以灵活适应视觉变换器中的跳跃连接；在 DeiT-S 与 ImageNet100 上广泛评估，相较于传统缩放，准确率提高 2.5%，参数效率提高 10%；缩放网络在从头训练小规模数据集时表现出卓越性能，是视觉变换器的首个完整缩放机制，实现高效模型缩放的一步。

Feb, 2024

理解 Transformer 训练的难点

分析了 Transformer 模型训练稳定性问题的核心，提出了一种新的模型初始化方法 Admin，实验证明 Admin 方法可以提高模型的稳定性、加速收敛并且提高准确性。

Apr, 2020

Transformer 训练中参数范数增长的影响：梯度下降的归纳偏置

本篇论文通过研究 transformer 在训练过程中的参数增长情况，证明了网络逐渐逼近于饱和状态的离散网络模型，得出饱和性是梯度下降在自然语言处理中的一个新的归纳偏差并通过自注意力机制分析了 transformer 的不同注意力头的作用。

Oct, 2020

使用规模标准化实现差分隐私残差网络训练

本研究提出通过添加 ScaleNorm 的简单架构调整方法，在残差网络中使用 Group Normalisation 来改善由 Differentially Private Stochastic Gradient Descent 训练的神经网络的精度和隐私保护之间的 trade-off，并在 CIFAR-10 中取得 82.5%（ε =8.0）的准确度。

Mar, 2022

可扩展的模块化规范优化

在本文中，我们通过定义模块化范数来显著推广了神经网络的权重归一化方法，该范数与网络架构本身一起递归地定义，并展示了它在性能提升和理论分析方面的应用。

May, 2024