高效 BERT 预训练中的 Token 丢弃策略再思考

ACLMay, 2023

高效 BERT 预训练中的 Token 丢弃策略再思考

Revisiting Token Dropping Strategy in Efficient BERT Pretraining

Qihuang Zhong, Liang Ding, Juhua Liu, Xuebo Liu, Min Zhang...

TL;DR通过提出语义一致性学习方法（ScTD）来优化 token dropping，从而在保持语义信息的同时显著提高性能，尤其在处理语义密集型任务时，ScTD 可以更好地处理语义丢失的问题。

Abstract

token dropping is a recently-proposed strategy to speed up the pretraining of masked language models, such as BERT, by skipping the computation of a subset of the input tokens at several middle layers. It can eff

token dropping pretraining semantic-consistent learning representation space performance gains

发现论文，激发创造

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

Random-LTD: 随机和分层标记丢弃为大型 Transformer 带来高效训练

提出了一种新的随机层级令牌丢弃方法（“random-LTD”），通过跳过中间层中的一个子集输入令牌的计算，达到了与标准训练基线相当的准确性和显著的加速效果，可应用于更广泛的应用，并可节省约 33.3％的计算成本和 25.6％的墙钟培训时间。

Nov, 2022

神经机器翻译的 Token Drop 机制

通过引入 Token Drop 以及两种自监督目标，提升神经机器翻译的泛化能力和避免过拟合，实验结果表明该方法在中英和英罗马尼亚基准数据集上表现显著优于强 Transformer 基线模型。

Oct, 2020

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Oct, 2020

TLM：用于 Transformer 的令牌级屏蔽

使用基于令牌级别的掩蔽训练策略，通过操纵多头注意力中的令牌连接来规范化 Transformer 的自注意力机制，以减少过拟合。该方法在多个自然语言处理任务中得到广泛评估，并证明在性能上优于其他规范化方法。

Oct, 2023

纯视觉 Transformer 中的动态令牌修剪用于语义分割

基于视觉转换器的动态令牌修剪方法（DToP）在不降低精度的情况下，降低了当前基于纯视觉转换器的语义分割方法平均 20％-35％的计算成本。

Aug, 2023

TR-BERT：动态令牌减少以加速 BERT 推理

本文提出一种动态适应层级的 Token 缩减方法 TR-BERT，该方法采用强化学习方法学习 Token 减少的选择策略以加速 BERT 模型在各种自然语言处理任务中的推理，并在实验中展示了 TR-BERT 在加速 BERT 模型的同时提高了其性能。

May, 2021

针对鉴别性语言模型预训练的自进化学习

本文提出了 Self-Evolution 学习方法，利用自适应 Token 掩蔽和标签平滑正则化技术，全面且明智地利用数据中的知识，通过在 10 项任务中进行实验，证明了该方法在各种 PLMs 上带来了相应且显著的提升，可以提高语言知识的学习和推广。

May, 2023

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP，可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明，ToP 优于现有的令牌剪枝和模型压缩方法，并提供高达 7.4 倍的实际延迟加速。

Jun, 2023

使用混合池化网络和 Drop Mask 改进 BERT

本研究提出了一种融合了自注意力和池化网络以编码每个层中的不同上下文特征的 HybridBERT 模型，并提出了一种简单的 DropMask 方法，用于解决预训练和微调之间的不匹配问题。实验表明，HybridBERT 在预训练和迁移学习中均优于 BERT，并且 DropMask 改善了在各种掩码率下 BERT 的下游任务的准确性。

Jul, 2023