EMNLPOct, 2023

分布假设并不能完全解释掩蔽语言模型预训练的好处

TL;DR我们从分布假设的角度分析了遮蔽语言建模预训练目标函数。我们研究了是否可以将预训练的模型的更好样本利用效率和更好的泛化能力归因于预训练数据的语义相似性编码的分布特性。通过一个合成数据集,我们的分析表明,分布特性确实导致了预训练遮蔽语言模型的更好样本利用效率,但不能完全解释其泛化能力。我们还对两个真实数据集进行了分析,并证明了分布特性也无法解释预训练自然语言模型的泛化能力。我们的结果表明我们对模型预训练的理解有限,并提供了未来的研究方向。