在掩码语言建模中，是否应当掩盖 15% 的词语？

ACLFeb, 2022

在掩码语言建模中，是否应当掩盖 15% 的词语？

Should You Mask 15% in Masked Language Modeling?

Alexander Wettig, Tianyu Gao, Zexuan Zhong, Danqi Chen

TL;DR本研究旨在重新审视 MLM 预训练过程中重要的掩码选项，并指出在不同的模型大小和掩码策略下，15% 的掩码率并不是普遍最优的选择。我们发现，对于 BERT-large 规模的模型，使用 40% 的掩码比 15% 更优，即使使用极高的掩码率 80%，也可以在保持绝大部分语言探测任务准确性的情况下，以 95% 的模型微调性能获得极佳的优化效果。此外，我们进一步研究了掩码率和策略之间的相互作用，并认为增加掩码率有两个不同的作用：一方面，它会导致更多的数据扰动，使得预测任务更加困难；另一方面，它能够使更多的预测可用于优化，从而获得更佳的结果。最后，本研究重新审视了 BERT 的 80-10-10 扰动策略。通过以上研究，我们对 MLM 预训练过程有了更好的理解。

Abstract

masked language models (MLMs) conventionally mask 15% of tokens due to the belief that more masking would leave insufficient context to learn good representations; this masking rate has been widely used, regardle

masked language models pre-training bert-large size models masking rate optimization

发现论文，激发创造

用于 MLM 预训练的动态掩码比率调度

通过动态调度遮蔽率，从 30％线性减少到 15％，与原始 BERT 模型的 15％固定遮蔽率相比，我们发现可以提高 BERT-base 的平均 GLUE 准确度 0.46％，从而改善遮蔽语言模型的质量并在预训练中实现高达 1.89 倍的加速。

May, 2023

面具更多，面具更晚：通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练

在预训练过程中追加 [MASK] 可以降低较早层的序列长度，从而在减少计算预算的前提下，提高 RoBERTa 模型的预训练效率，同时在 GLUE 基准测试中表现更好。

Nov, 2022

为了更好的语言模型预训练，学习更好的掩码技术

本研究通过探索不同时间阶段掩码策略方式，发现固定掩码比率和掩码内容是无法实现最佳效果的。因此，提出了两种自适应掩码策略，通过不同的训练阶段来调整掩码比率和掩码内容以提高模型的性能，并在下游任务中进行验证。该研究的工作是关于时间相关掩码策略对预训练模型的影响的开拓性研究，让掩码比率和掩码内容如何影响 MLM 预训练得到了更好的理解。

Aug, 2022

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

中间预训练中掩码策略的影响

本文通过大规模实证研究不同的遮蔽策略对于 NLP 模型中中间 pre-training 过程的影响，发现适当的预训练语料、输出格式的选择以及深思熟虑的 MLM 策略在提升最终性能方面有着关键作用，优化后的遮蔽策略不仅可以在 TrivaQA 数据集中优于传统策略，而且在某些情况下还可在多个任务间实现积极的迁移效果。

Apr, 2021

掩蔽：预训练语言模型的有效替代方法

本文提出了一种有效的预训练语言模型利用方法，其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明，我们的掩模方案在执行多个任务时具有可比性的性能，却具有更小的内存占用。通过本文内在评估，我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观，我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值，证实了掩蔽是微调的有效替代方法。

Apr, 2020

基于 PMI 的相关跨度掩码

通过对点对互信息的概念提出了 PMI-Masking，该结构代替了以往不合理的随机掩码方法，实验结果表明在预训练的效率和下游任务性能上有所提高

Oct, 2020

掩码语言建模中的表征缺陷

本文提出了一种新的预训练方法 MAE-LM，通过在 Masked Autoencoder 中排除 [MASK] 符号的编码器，解决了 Masked Language Modeling 预训练方法中 [MASK] 符号造成的表达上的不足问题，通过在 GLUE 和 SQuAD 基准测试上的表现，证明了 MAE-LM 在不同预训练设置和模型大小下都优于 MLM 预训练模型。

Feb, 2023

简单却令人沮丧的预训练替代方法：掩码语言建模

本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品，证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能，并且使用较小的模型进行验证。

Sep, 2021

UnMASKed: 通过语言学知识的职业市场提示量化遮蔽语言模型中的性别偏见

该研究通过评估六个主要的语言模型（BERT，RoBERTa，DistilBERT，BERT-multilingual，XLM-RoBERTa 和 DistilBERT-multilingual）并采用包含鼓励模型生成英语主题代词和要求模型返回与性别代词相关的动词、副词和形容词概率的提示来调查遮蔽语言模型中固有的偏见，尤其是性别偏见。分析结果显示所有模型存在性别刻板印象，而多语言变体的偏见相对较小。

Jan, 2024