用于 MLM 预训练的动态掩码比率调度

May, 2023

用于 MLM 预训练的动态掩码比率调度

Dynamic Masking Rate Schedules for MLM Pretraining

Zachary Ankner, Naomi Saphra, Davis Blalock, Jonathan Frankle, Matthew L. Leavitt

TL;DR通过动态调度遮蔽率，从 30％线性减少到 15％，与原始 BERT 模型的 15％固定遮蔽率相比，我们发现可以提高 BERT-base 的平均 GLUE 准确度 0.46％，从而改善遮蔽语言模型的质量并在预训练中实现高达 1.89 倍的加速。

Abstract

Most works on transformers trained with the masked language modeling (MLM) objective use the original bert model's fixed masking rate of 1

transformers masked language modeling pretraining masking rate scheduling bert

发现论文，激发创造

在掩码语言建模中，是否应当掩盖 15% 的词语？

本研究旨在重新审视 MLM 预训练过程中重要的掩码选项，并指出在不同的模型大小和掩码策略下，15% 的掩码率并不是普遍最优的选择。我们发现，对于 BERT-large 规模的模型，使用 40% 的掩码比 15% 更优，即使使用极高的掩码率 80%，也可以在保持绝大部分语言探测任务准确性的情况下，以 95% 的模型微调性能获得极佳的优化效果。此外，我们进一步研究了掩码率和策略之间的相互作用，并认为增加掩码率有两个不同的作用：一方面，它会导致更多的数据扰动，使得预测任务更加困难；另一方面，它能够使更多的预测可用于优化，从而获得更佳的结果。最后，本研究重新审视了 BERT 的 80-10-10 扰动策略。通过以上研究，我们对 MLM 预训练过程有了更好的理解。

Feb, 2022

为了更好的语言模型预训练，学习更好的掩码技术

本研究通过探索不同时间阶段掩码策略方式，发现固定掩码比率和掩码内容是无法实现最佳效果的。因此，提出了两种自适应掩码策略，通过不同的训练阶段来调整掩码比率和掩码内容以提高模型的性能，并在下游任务中进行验证。该研究的工作是关于时间相关掩码策略对预训练模型的影响的开拓性研究，让掩码比率和掩码内容如何影响 MLM 预训练得到了更好的理解。

Aug, 2022

面具更多，面具更晚：通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练

在预训练过程中追加 [MASK] 可以降低较早层的序列长度，从而在减少计算预算的前提下，提高 RoBERTa 模型的预训练效率，同时在 GLUE 基准测试中表现更好。

Nov, 2022

中间预训练中掩码策略的影响

本文通过大规模实证研究不同的遮蔽策略对于 NLP 模型中中间 pre-training 过程的影响，发现适当的预训练语料、输出格式的选择以及深思熟虑的 MLM 策略在提升最终性能方面有着关键作用，优化后的遮蔽策略不仅可以在 TrivaQA 数据集中优于传统策略，而且在某些情况下还可在多个任务间实现积极的迁移效果。

Apr, 2021

简单却令人沮丧的预训练替代方法：掩码语言建模

本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品，证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能，并且使用较小的模型进行验证。

Sep, 2021

通过掩码形态生长加速两倍的语言模型预训练

本文主要介绍了一种名为 msg 的技术，提出了一种新的增长调度方案，其中包括所有可能的尺寸，并且是独立于新权重初始化的严格函数保持增长运算符。实验证明，与相关工作相比，MSG 速度提高了 80％的 Bert-base 和 120％的 Bert-large 预训练，并且能够同时提高调优性能

May, 2023

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

NarrowBERT: 增强遮蔽语言模型的预训练和推理速度

本文介绍了一种修改的 transformer 编码器 --NarrowBERT，其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作，从而增加了掩码语言模型预训练的吞吐量。此外，本文还显示，与 MNLI 等句子编码任务相比，NarrowBERT 在推理时间的吞吐量提高了多达 3.5 倍，性能降低最小（或没有），并且在 IMDB，亚马逊评论分类和 CoNLL NER 任务上的 NarrowBERT 表现也与标准 BERT 相当。

Jan, 2023

掩码预训练目标的任务复杂度如何影响下游性能？

本研究旨在探究更加复杂的目标掩码方案是否能够取得比 Masked language modeling 更好的效果，并验证它们需要具备多少的复杂性才能够达到相似的性能；结果表明，相对于 Masked language modeling 来说，更加复杂的掩码方案能够在半数量级的复杂性下取得更好的效果，最后，我们还从任务复杂性的角度探讨了如何预训练模型。

May, 2023

掩蔽：预训练语言模型的有效替代方法

本文提出了一种有效的预训练语言模型利用方法，其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明，我们的掩模方案在执行多个任务时具有可比性的性能，却具有更小的内存占用。通过本文内在评估，我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观，我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值，证实了掩蔽是微调的有效替代方法。

Apr, 2020