利用渐进式层丢弃加速基于 Transformer 的语言模型训练

Oct, 2020

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

Accelerating Training of Transformer-Based Language Models with Progressive Layer Dropping

Minjia Zhang, Yuxiong He

TL;DR本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Abstract

Recently, transformer-based language models have demonstrated remarkable performance across many NLP domains. However, the unsupervised pre-training step of these models suffers from unbearable overall computatio

transformer-based language models unsupervised pre-training progressive layer dropping training efficiency knowledge transferability

发现论文，激发创造

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

Random-LTD: 随机和分层标记丢弃为大型 Transformer 带来高效训练

提出了一种新的随机层级令牌丢弃方法（“random-LTD”），通过跳过中间层中的一个子集输入令牌的计算，达到了与标准训练基线相当的准确性和显著的加速效果，可应用于更广泛的应用，并可节省约 33.3％的计算成本和 25.6％的墙钟培训时间。

Nov, 2022

渐进式 BERT 训练中的 Transformer 增长

本文旨在通过对 Transformer 增长的探索来指导渐进式训练，发现复合缩放方法可以平衡模型的深度、宽度和输入的长度，并通过比较实验探索每个维度的替代增长操作，最终使 BERT 的预训练加快 73.6％（基本模型）和 82.2％（大模型），并达到相当的性能。

Oct, 2020

为渐进式训练语言模型准备课程

Apollo 方法使用低价值优先采样（LVPS）训练不同深度的模型，并使用权重共享来促进高效的扩展，通过插值方法实现稳定的模型深度扩展，既提高了训练效率，也降低了时间、财务和环境成本。

Jan, 2024

加速训练 Transformer 模型的多层框架

我们提出了一个多层框架，通过合并和解散以及插值操作来加速训练，从而降低了 BERT/GPT-Base 模型的计算成本约 20%，以及 BERT-Large 模型的计算成本高达 51.6%，同时保持了性能。

Apr, 2024

结构化丢弃降低 Transformer 深度

本文介绍了一种新的结构化 dropout 形式 ——LayerDrop，该形式可在训练过程中实现正则化效果，在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升，并提出使用该方法可以得到更高质量的类 BERT 模型。

Sep, 2019

预训练语言模型压缩和加速综述

该文章调查了预训练语言模型的压缩和加速方法，重点关注了模型在 NLP 领域推理阶段的表现，并提出为 NLP 的整个生命周期（包括数据准备、模型训练和推理）综合考虑计算、时间和碳排放的高效 NLP 研究。

Feb, 2022

UniDrop：一种简单而有效的技术，可以在不增加额外成本的情况下提高 Transformer 的性能

该论文介绍如何将不同的 dropout 技术整合到 Transformer 模型的训练中，从而提高其性能。实验结果表明，使用 UniDrop 可以在 IWSLT14 翻译任务中取得约 1.5 BLEU 的改进，并且即使在强大的预训练 RoBERTa 下，文本分类的准确性也有所提高。

Apr, 2021

跨语言和渐进式迁移学习实现高效的语言模型训练

介绍了一种名为 CLP-Transfer 的跨语言和渐进式迁移学习方法，将预训练模型从一个源语言转移到一个新的目标语言，实现了资源高效的训练，同时解决了资源不足的语言之间的表现差距问题，并比单纯的跨语言传输要好。

Jan, 2023