遮蔽语言建模和分布假设：有序词预训练对小型模型的影响

EMNLPApr, 2021

遮蔽语言建模和分布假设：有序词预训练对小型模型的影响

Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little

Koustuv Sinha, Robin Jia, Dieuwke Hupkes, Joelle Pineau, Adina Williams...

TL;DR本文提出了一个新的解释：遮蔽语言模型 (MLM) 成功地解决了下游任务几乎完全归功于其建模更高阶词共现统计量的能力。

Abstract

A possible explanation for the impressive performance of masked language model (mlm) pre-training is that such models have learned to represent the →

masked language model mlm syntactic structures word co-occurrence statistics pre-training

发现论文，激发创造

分布假设并不能完全解释掩蔽语言模型预训练的好处

我们从分布假设的角度分析了遮蔽语言建模预训练目标函数。我们研究了是否可以将预训练的模型的更好样本利用效率和更好的泛化能力归因于预训练数据的语义相似性编码的分布特性。通过一个合成数据集，我们的分析表明，分布特性确实导致了预训练遮蔽语言模型的更好样本利用效率，但不能完全解释其泛化能力。我们还对两个真实数据集进行了分析，并证明了分布特性也无法解释预训练自然语言模型的泛化能力。我们的结果表明我们对模型预训练的理解有限，并提供了未来的研究方向。

Oct, 2023

掩蔽语言模型的归纳偏好：从统计学到句法依赖

研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能；理论认为，预训练语言模型通过遮盖具有暗示下游任务的填空作用，获得有用的归纳偏见。本文构建了类似填空的掩码，并用于三个不同的分类数据集，证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码；我们演示了掩码语言模型（MLM）目标与学习图形模型中的统计依赖的现有方法之间的对应关系，并利用这一点派生出一种提取该模型中学习到的统计依赖的方法，这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估，在无监督解析方面，简单地形成最小生成树优于经典的无监督解析方法（58.74 vs. 55.91 UUAS）

Apr, 2021

增加遮挡时，词序很重要

本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响，发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加，并且没有位置编码的模型不能完成该任务，这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。

Nov, 2022

无监督方式提升语言模型中的事实知识

本研究提出一种影响掩蔽语言模型预训练的方法，使其在无监督的方式下优先选择有信息的词汇，实验证明此方法大大提高了预训练语言模型在诸如事实回忆、问题回答、情感分析和自然语言推理等知识密集型任务中的表现。

Apr, 2023

中间预训练中掩码策略的影响

本文通过大规模实证研究不同的遮蔽策略对于 NLP 模型中中间 pre-training 过程的影响，发现适当的预训练语料、输出格式的选择以及深思熟虑的 MLM 策略在提升最终性能方面有着关键作用，优化后的遮蔽策略不仅可以在 TrivaQA 数据集中优于传统策略，而且在某些情况下还可在多个任务间实现积极的迁移效果。

Apr, 2021

DICT-MLM：使用双语词典的改进多语种预训练

本文提出 DICT-MLM 方法以促进跨语言表示学习，分析表明该方法在多种涉及 30 多种语言的下游任务中表现出了更好的多语言表示能力。

Oct, 2020

语序很重要（洗牌语言模型知道）

研究发现，经过随即排列的句子进行预训练和 / 或微调的语言模型表现出与 GLUE 上竞争力的表现，这给单词顺序信息的重要性带来了质疑。尽管有一些研究表明位置嵌入对于模型在混乱的文本上表现良好似乎很让人费解，但我们对这些语言模型进行了单词顺序信息的探究并研究了从混淆的文本中学习的位置嵌入编码的内容，表明这些模型保留了与原始的自然顺序有关的信息。我们表明，这在某种程度上是由于先前的研究中所实现的混淆的微妙之处 —— 而不是在子单词分段之后而是在之前。但令人惊讶的是，我们发现即使是在子单词分段之后洗牌的文本上训练出的语言模型也保留了单词顺序信息的某些方面，因为句子长度和单字概率之间存在统计依赖关系。最后，我们证明除了 GLUE，各种语言理解任务确实需要单词顺序信息，这往往不能通过微调来学习。

Mar, 2022

词序的重要性和非重要性

通过研究语言模型的敏感度，提出语言冗余可以解释语言模型对自然语言理解任务中的词序变化不敏感的现象，即词序和其他语言线索（如格标记）提供了重叠和冗余的信息。利用互信息量化词序的信息量，结果显示当词序信息量较低时，模型对未乱序和乱序句子的预测更加一致。此外，发现该影响在不同任务中有所变化，对于某些任务（如 SST-2），语言模型的预测与原始预测几乎始终一致，尽管点互信息（PMI）发生变化，而对于其他任务（如 RTE），当 PMI 较低时，预测的一致性接近随机，即词序真正重要。

Feb, 2024

简单却令人沮丧的预训练替代方法：掩码语言建模

本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品，证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能，并且使用较小的模型进行验证。

Sep, 2021

大规模神经词嵌入中的顺序建模

提出了一种新的神经语言模型，它不仅包含单词顺序，还包括字符顺序，并利用 skip-gram 网络实现了高效的并行训练，从而在语义和句法类比任务中取得了 85.8％的高分。

Jun, 2015