基于 PMI 的相关跨度掩码

Oct, 2020

PMI-Masking: Principled masking of correlated spans

Yoav Levine, Barak Lenz, Opher Lieber, Omri Abend, Kevin Leyton-Brown...

TL;DR通过对点对互信息的概念提出了 PMI-Masking，该结构代替了以往不合理的随机掩码方法，实验结果表明在预训练的效率和下游任务性能上有所提高

Abstract

Masking tokens uniformly at random constitutes a common flaw in the pretraining of masked language models (MLMs) such as BERT. We show that such uniform masking allows an MLM to minimize its training objective by latching onto shallow local signals, leading to pretraining inefficiency

masked language models pmi-masking pointwise mutual information pretraining efficiency downstream performance

发现论文，激发创造

InforMask: 语言模型预训练的无监督信息遮蔽

本文提出了 InforMask 方法，使用点互信息（PMI）来选择最具信息量的 tokens 进行蒙版，并进行两种优化以提高效率，该方法在 LAMA 和 SQuAD v1、v2 基准测试上明显优于随机蒙版和以前提出的蒙版策略。

Oct, 2022

为了更好的语言模型预训练，学习更好的掩码技术

本研究通过探索不同时间阶段掩码策略方式，发现固定掩码比率和掩码内容是无法实现最佳效果的。因此，提出了两种自适应掩码策略，通过不同的训练阶段来调整掩码比率和掩码内容以提高模型的性能，并在下游任务中进行验证。该研究的工作是关于时间相关掩码策略对预训练模型的影响的开拓性研究，让掩码比率和掩码内容如何影响 MLM 预训练得到了更好的理解。

Aug, 2022

UniLMv2：伪掩码统一语言模型预训练

本文提出了一种称为 Pseudo-Masked Language Model（PMLM）的新训练程序，用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务，并通过自我注意力掩码和位置嵌入来避免冗余计算，在自然语言理解和生成任务方面取得了新的最先进的结果。

Feb, 2020

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

针对密集式段落检索的检索导向遮蔽预训练语言模型

该研究提出了一种新的遮蔽策略 (ROM)，通过词项重要性权重来提升语言模型预训练中的密集通道检索任务性能，实验结果证明这种方法能够显著提高多个通道检索基准测试的性能而不改变原来的语言模型的架构和学习目标。

Oct, 2022

中间预训练中掩码策略的影响

本文通过大规模实证研究不同的遮蔽策略对于 NLP 模型中中间 pre-training 过程的影响，发现适当的预训练语料、输出格式的选择以及深思熟虑的 MLM 策略在提升最终性能方面有着关键作用，优化后的遮蔽策略不仅可以在 TrivaQA 数据集中优于传统策略，而且在某些情况下还可在多个任务间实现积极的迁移效果。

Apr, 2021

在掩码语言建模中，是否应当掩盖 15% 的词语？

本研究旨在重新审视 MLM 预训练过程中重要的掩码选项，并指出在不同的模型大小和掩码策略下，15% 的掩码率并不是普遍最优的选择。我们发现，对于 BERT-large 规模的模型，使用 40% 的掩码比 15% 更优，即使使用极高的掩码率 80%，也可以在保持绝大部分语言探测任务准确性的情况下，以 95% 的模型微调性能获得极佳的优化效果。此外，我们进一步研究了掩码率和策略之间的相互作用，并认为增加掩码率有两个不同的作用：一方面，它会导致更多的数据扰动，使得预测任务更加困难；另一方面，它能够使更多的预测可用于优化，从而获得更佳的结果。最后，本研究重新审视了 BERT 的 80-10-10 扰动策略。通过以上研究，我们对 MLM 预训练过程有了更好的理解。

Feb, 2022

面具更多，面具更晚：通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练

在预训练过程中追加 [MASK] 可以降低较早层的序列长度，从而在减少计算预算的前提下，提高 RoBERTa 模型的预训练效率，同时在 GLUE 基准测试中表现更好。

Nov, 2022

掩蔽语言模型的归纳偏好：从统计学到句法依赖

研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能；理论认为，预训练语言模型通过遮盖具有暗示下游任务的填空作用，获得有用的归纳偏见。本文构建了类似填空的掩码，并用于三个不同的分类数据集，证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码；我们演示了掩码语言模型（MLM）目标与学习图形模型中的统计依赖的现有方法之间的对应关系，并利用这一点派生出一种提取该模型中学习到的统计依赖的方法，这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估，在无监督解析方面，简单地形成最小生成树优于经典的无监督解析方法（58.74 vs. 55.91 UUAS）

Apr, 2021

有效预训练的蒙版标记的新特性

通过优化蒙面标记以解决自我监督学习中的效率问题，该方法称为蒙面标记优化（MTO），可实现与最新方法相当的预训练性能，减少近 50% 的预训练时期。

Apr, 2024