掩码语言建模中的表征缺陷

Feb, 2023

Representation Deficiency in Masked Language Modeling

Yu Meng, Jitin Krishnan, Sinong Wang, Qifan Wang, Yuning Mao...

TL;DR本文提出了一种新的预训练方法 MAE-LM，通过在 Masked Autoencoder 中排除 [MASK] 符号的编码器，解决了 Masked Language Modeling 预训练方法中 [MASK] 符号造成的表达上的不足问题，通过在 GLUE 和 SQuAD 基准测试上的表现，证明了 MAE-LM 在不同预训练设置和模型大小下都优于 MLM 预训练模型。

Abstract

masked language modeling (MLM) has been one of the most prominent approaches for pretraining bidirectional text encoders due to its simplicity and effectiveness. One notable concern about MLM is that the special

masked language modeling pretraining mae-lm model dimensions glue and squad

发现论文，激发创造

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

简单却令人沮丧的预训练替代方法：掩码语言建模

本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品，证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能，并且使用较小的模型进行验证。

Sep, 2021

面具更多，面具更晚：通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练

在预训练过程中追加 [MASK] 可以降低较早层的序列长度，从而在减少计算预算的前提下，提高 RoBERTa 模型的预训练效率，同时在 GLUE 基准测试中表现更好。

Nov, 2022

UniLMv2：伪掩码统一语言模型预训练

本文提出了一种称为 Pseudo-Masked Language Model（PMLM）的新训练程序，用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务，并通过自我注意力掩码和位置嵌入来避免冗余计算，在自然语言理解和生成任务方面取得了新的最先进的结果。

Feb, 2020

DICT-MLM：使用双语词典的改进多语种预训练

本文提出 DICT-MLM 方法以促进跨语言表示学习，分析表明该方法在多种涉及 30 多种语言的下游任务中表现出了更好的多语言表示能力。

Oct, 2020

为了更好的语言模型预训练，学习更好的掩码技术

本研究通过探索不同时间阶段掩码策略方式，发现固定掩码比率和掩码内容是无法实现最佳效果的。因此，提出了两种自适应掩码策略，通过不同的训练阶段来调整掩码比率和掩码内容以提高模型的性能，并在下游任务中进行验证。该研究的工作是关于时间相关掩码策略对预训练模型的影响的开拓性研究，让掩码比率和掩码内容如何影响 MLM 预训练得到了更好的理解。

Aug, 2022

ELECTRA：将文本编码器视为判别器而非生成器的预训练

提出了一种更节省样本的预训练任务，叫做替换标记检测。该方法是通过一个小的生成网络从语料库中替换一些标记，然后通过训练一个判别模型，以预测输入标记是否被替换，而不是预测被替换的标记的原始身份来破坏输入，从而定义所有输入标记的任务，比普通的 Masked language modeling 更有效，并表现出比 BERT 更好的上下文表示学习效果。

Mar, 2020

掩码预训练目标的任务复杂度如何影响下游性能？

本研究旨在探究更加复杂的目标掩码方案是否能够取得比 Masked language modeling 更好的效果，并验证它们需要具备多少的复杂性才能够达到相似的性能；结果表明，相对于 Masked language modeling 来说，更加复杂的掩码方案能够在半数量级的复杂性下取得更好的效果，最后，我们还从任务复杂性的角度探讨了如何预训练模型。

May, 2023

通过遮蔽自编码器预训练针对检索的语言模型 RetroMAE

本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE，通过三个关键设计，包括污染输入、不对称模型结构和不对称的遮盖比率，取得了令人满意的实验结果，大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。

May, 2022

在掩码语言建模中，是否应当掩盖 15% 的词语？

本研究旨在重新审视 MLM 预训练过程中重要的掩码选项，并指出在不同的模型大小和掩码策略下，15% 的掩码率并不是普遍最优的选择。我们发现，对于 BERT-large 规模的模型，使用 40% 的掩码比 15% 更优，即使使用极高的掩码率 80%，也可以在保持绝大部分语言探测任务准确性的情况下，以 95% 的模型微调性能获得极佳的优化效果。此外，我们进一步研究了掩码率和策略之间的相互作用，并认为增加掩码率有两个不同的作用：一方面，它会导致更多的数据扰动，使得预测任务更加困难；另一方面，它能够使更多的预测可用于优化，从而获得更佳的结果。最后，本研究重新审视了 BERT 的 80-10-10 扰动策略。通过以上研究，我们对 MLM 预训练过程有了更好的理解。

Feb, 2022