分布假设并不能完全解释掩蔽语言模型预训练的好处

EMNLPOct, 2023

分布假设并不能完全解释掩蔽语言模型预训练的好处

The Distributional Hypothesis Does Not Fully Explain the Benefits of Masked Language Model Pretraining

Ting-Rui Chiang, Dani Yogatama

TL;DR我们从分布假设的角度分析了遮蔽语言建模预训练目标函数。我们研究了是否可以将预训练的模型的更好样本利用效率和更好的泛化能力归因于预训练数据的语义相似性编码的分布特性。通过一个合成数据集，我们的分析表明，分布特性确实导致了预训练遮蔽语言模型的更好样本利用效率，但不能完全解释其泛化能力。我们还对两个真实数据集进行了分析，并证明了分布特性也无法解释预训练自然语言模型的泛化能力。我们的结果表明我们对模型预训练的理解有限，并提供了未来的研究方向。

Abstract

We analyze the masked language modeling pretraining objective function from the perspective of the distributional hypothesis. We investigate whether better →

masked language modeling distributional hypothesis sample efficiency generalization capability pretraining data

发现论文，激发创造

遮蔽语言建模和分布假设：有序词预训练对小型模型的影响

本文提出了一个新的解释：遮蔽语言模型 (MLM) 成功地解决了下游任务几乎完全归功于其建模更高阶词共现统计量的能力。

Apr, 2021

掩蔽语言模型的归纳偏好：从统计学到句法依赖

研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能；理论认为，预训练语言模型通过遮盖具有暗示下游任务的填空作用，获得有用的归纳偏见。本文构建了类似填空的掩码，并用于三个不同的分类数据集，证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码；我们演示了掩码语言模型（MLM）目标与学习图形模型中的统计依赖的现有方法之间的对应关系，并利用这一点派生出一种提取该模型中学习到的统计依赖的方法，这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估，在无监督解析方面，简单地形成最小生成树优于经典的无监督解析方法（58.74 vs. 55.91 UUAS）

Apr, 2021

论掩码预训练和边缘似然

本文研究了带有累积评分函数的遮蔽预训练模型，证明该方法优化模型边际似然，从而取得了预训练的成功效果，并且推荐用类似方法来训练贝叶斯模型，同时还探讨了在大型语言模型中使用遮蔽预训练的主要学习原则。

Jun, 2023

预训练目标如何影响大型语言模型在语言属性方面的学习？

本文探讨了语言模型的预训练目标对 BERT 学习语言属性的影响，通过使用两个语言学上有意义的目标和三个非语言学动机的目标进行预训练，并发现了这两种不同类型的目标训练出的模型在语言特征表现方面的差异非常小，这也对语言信息熵理论的主流观点提出了疑问。

Mar, 2022

中间预训练中掩码策略的影响

本文通过大规模实证研究不同的遮蔽策略对于 NLP 模型中中间 pre-training 过程的影响，发现适当的预训练语料、输出格式的选择以及深思熟虑的 MLM 策略在提升最终性能方面有着关键作用，优化后的遮蔽策略不仅可以在 TrivaQA 数据集中优于传统策略，而且在某些情况下还可在多个任务间实现积极的迁移效果。

Apr, 2021

超越分布式假设：让语言模型学习意思 - 文本对应关系

本文介绍为了解决语言模型 (LMs) 无法满足的逻辑否定性质 (property) 所采用的方法。研究者提出一种名为 Meaning-Matching 的新的任务，用于直接帮助 LM 学习词汇语义信息，进而满足逻辑否定性质 (property)。在七个 GLUE 任务上的微调实验证明了该方法的有效性。

May, 2022

从掩码语言模型中衍生语言模型

研究在 Masked language models 中提取出显式的联合分布的方法，并发现基于标识最接近 MLM 的条件的联合分布的方法效果最好，甚至可以有时胜过原来的 MLM 条件的出现。

May, 2023

数据相似性无法充分解释语言模型的性能

大型语言模型的性能在许多下游任务上都很高，但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较，测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现，在其他基准测试中，相似度指标与准确性甚至彼此之间都没有相关性。这表明预训练数据与下游任务之间的关系比通常认为的更加复杂。

Nov, 2023

简单却令人沮丧的预训练替代方法：掩码语言建模

本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品，证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能，并且使用较小的模型进行验证。

Sep, 2021

是否预训练：探究在资源丰富任务中预训练的益处

本文研究预训练自然语言处理模型在下游任务中使用的训练样本数量与性能之间的关系，研究发现，随着训练样本的数量达到百万级别，使用 BERT 预训练模型和从头开始训练的 LSTM 模型之间的准确度差距缩小到不到 1％，暗示随着监督数据规模的增大，MLM 模型可能会达到递减的收益点。

Jun, 2020