BranchNorm: 极深 Transformer 网络的鲁棒缩放
通过引入新的归一化函数(DeepNorm)来修改 Transformer 中的残差连接,并进行理论分析,提出了一种简单而有效的方法来稳定极深的 Transformers 模型。 该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练,并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中,使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。
Mar, 2022
通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用,能够加速模型训练,使其更加稳定,从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。
Oct, 2019
本研究提出了一种简单有效的方法,使用 FoundationLayerNormalization 可以实现深度学习神经网络的高效训练。作者成功地将 BERT 和 GPT 升级到 1,000 层,比之前的模型深度大数个数量级。
Apr, 2022
本文研究了神经网络(NN)和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化(BN)之间的区别,分析了使用 BN 进行 NLP 任务时性能下降的原因,提出了一种通过放宽 BN 中的零均值正则化,引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN),比 LN 和 BN 都表现更好。
Mar, 2020
NormFormer 结构通过在每一层中添加三种规范化操作,即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比,NormFormer 无需额外计算成本 (+0.4% 参数增加),对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外,NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度,或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。
Oct, 2021
基于第二阶损失景观信息的自动缩放方法,以灵活适应视觉变换器中的跳跃连接;在 DeiT-S 与 ImageNet100 上广泛评估,相较于传统缩放,准确率提高 2.5%,参数效率提高 10%;缩放网络在从头训练小规模数据集时表现出卓越性能,是视觉变换器的首个完整缩放机制,实现高效模型缩放的一步。
Feb, 2024
分析了 Transformer 模型训练稳定性问题的核心,提出了一种新的模型初始化方法 Admin,实验证明 Admin 方法可以提高模型的稳定性、加速收敛并且提高准确性。
Apr, 2020
本篇论文通过研究 transformer 在训练过程中的参数增长情况,证明了网络逐渐逼近于饱和状态的离散网络模型,得出饱和性是梯度下降在自然语言处理中的一个新的归纳偏差并通过自注意力机制分析了 transformer 的不同注意力头的作用。
Oct, 2020
本研究提出通过添加 ScaleNorm 的简单架构调整方法,在残差网络中使用 Group Normalisation 来改善由 Differentially Private Stochastic Gradient Descent 训练的神经网络的精度和隐私保护之间的 trade-off,并在 CIFAR-10 中取得 82.5%(ε =8.0)的准确度。
Mar, 2022