FoundationLayerNorm: 将 BERT 和 GPT 扩展至 1,000 层

Apr, 2022

FoundationLayerNorm: 将 BERT 和 GPT 扩展至 1,000 层

FoundationLayerNorm: Scaling BERT and GPT to 1,000 Layers

Dezhou Shen

TL;DR本研究提出了一种简单有效的方法，使用 FoundationLayerNormalization 可以实现深度学习神经网络的高效训练。作者成功地将 BERT 和 GPT 升级到 1,000 层，比之前的模型深度大数个数量级。

Abstract

The mainstream bert/gpt model contains only 10 to 20 layers, and there is little literature to discuss the training of deep →

bert gpt deep learning neural networks training

发现论文，激发创造

DeepNet: 将 Transformer 扩展至 1,000 层

通过引入新的归一化函数（DeepNorm）来修改 Transformer 中的残差连接，并进行理论分析，提出了一种简单而有效的方法来稳定极深的 Transformers 模型。该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练，并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中，使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。

Mar, 2022

基础 Transformer

本研究提出了一种新型的 Transformer 变种 ——Magneto，其引入了 Sub-LayerNorm 来提高表达能力，并从 DeepNet 导出了一种初始化策略以保证稳定的扩展性，旨在成为一个通用的架构，提高多任务和多模态任务的训练稳定性和性能。与目前设计用于各种应用的变种相比，Magneto 展现了更好的性能和稳定性。

Oct, 2022

渐进式 BERT 训练中的 Transformer 增长

本文旨在通过对 Transformer 增长的探索来指导渐进式训练，发现复合缩放方法可以平衡模型的深度、宽度和输入的长度，并通过比较实验探索每个维度的替代增长操作，最终使 BERT 的预训练加快 73.6％（基本模型）和 82.2％（大模型），并达到相当的性能。

Oct, 2020

BranchNorm: 极深 Transformer 网络的鲁棒缩放

本文提出了一种名为 BranchNorm 的方法，用于以更好的效果平衡训练稳定性和收敛性来动态重新调整 Transformer 的分支。

May, 2023

加速训练 Transformer 模型的多层框架

我们提出了一个多层框架，通过合并和解散以及插值操作来加速训练，从而降低了 BERT/GPT-Base 模型的计算成本约 20%，以及 BERT-Large 模型的计算成本高达 51.6%，同时保持了性能。

Apr, 2024

LayerNorm: 参数高效微调中的关键组件

改进和优化 BERT 预训练模型以实现参数高效微调，通过分析不同组件，发现经过微调后，输出层规范化（LayerNorm）发生的变化最为显著。通过仅微调 LayerNorm，可以达到与完全微调和其他参数高效微调方法相当甚至更好的性能，并用 Fisher 信息确定了 LayerNorm 的关键子集，在 GLUE 基准测试中解决了许多 NLP 任务。

Mar, 2024

层层为重要且不同：每一层都重要 BERT

该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛，赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示，该简单的修改具有潜力，且不同层的重要性不尽相同。

Nov, 2023

NormFormer: 更好的 Transformer 预训练模型，附加额外的归一化处理

NormFormer 结构通过在每一层中添加三种规范化操作，即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比，NormFormer 无需额外计算成本 (+0.4% 参数增加），对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外，NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度，或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。

Oct, 2021

TrimBERT: 为折衷而量身定制的 BERT 模型

本文介绍了一种方法：通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果，同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。

Feb, 2022

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020