通过强制无效化来保持单词顺序的重要性
通过一个明确的指标,我们提出了多种度量方法,并研究了哪些特定的排列方式使得大型 Transformer NLU 模型在自然语言推理任务中对随机词序具有一定程度的规律性。我们对此现象进行了综合实证评估,发现无论是基于 Transformer 还是基于 pre-Transformer RNN / ConvNet 结构的编码器,以及跨多种语言(英语和中文)都存在此问题,并提供相关数据和代码。
Dec, 2020
此研究发现,BERT 等自然语言处理模型在进行自然语言理解任务时,即使输入词的顺序被随机打乱,其对下游任务的影响几乎不会改变,因为这些模型主要利用表面特征(如情感分析中的关键词情感或自然语言推断中序列对输入的逐词相似性)进行正确的决策。研究结果表明,许多自然语言处理任务不能真正挑战机器对句子含义的理解能力。
Dec, 2020
通过研究语言模型的敏感度,提出语言冗余可以解释语言模型对自然语言理解任务中的词序变化不敏感的现象,即词序和其他语言线索(如格标记)提供了重叠和冗余的信息。利用互信息量化词序的信息量,结果显示当词序信息量较低时,模型对未乱序和乱序句子的预测更加一致。此外,发现该影响在不同任务中有所变化,对于某些任务(如 SST-2),语言模型的预测与原始预测几乎始终一致,尽管点互信息(PMI)发生变化,而对于其他任务(如 RTE),当 PMI 较低时,预测的一致性接近随机,即词序真正重要。
Feb, 2024
通过使用一种新的称为 IBIS 的过程,本文否认了一种假说,即单词顺序对于进行 NLP 基准任务而言必须编码含义的观点,我们在 GLUE 套件和各种英语文本流派中的多种情况下证明这一点,并探讨了诸如 IBIS 这样的洗牌推理过程如何有益于语言建模和约束生成。
Sep, 2021
研究发现,经过随即排列的句子进行预训练和 / 或微调的语言模型表现出与 GLUE 上竞争力的表现,这给单词顺序信息的重要性带来了质疑。尽管有一些研究表明位置嵌入对于模型在混乱的文本上表现良好似乎很让人费解,但我们对这些语言模型进行了单词顺序信息的探究并研究了从混淆的文本中学习的位置嵌入编码的内容,表明这些模型保留了与原始的自然顺序有关的信息。我们表明,这在某种程度上是由于先前的研究中所实现的混淆的微妙之处 —— 而不是在子单词分段之后而是在之前。但令人惊讶的是,我们发现即使是在子单词分段之后洗牌的文本上训练出的语言模型也保留了单词顺序信息的某些方面,因为句子长度和单字概率之间存在统计依赖关系。最后,我们证明除了 GLUE,各种语言理解任务确实需要单词顺序信息,这往往不能通过微调来学习。
Mar, 2022
本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现,经过尝试,通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73,而对 MNLI 测试集影响不大,表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。
Apr, 2020
本论文针对自然语言理解研究的核心问题,以预训练语言模型为研究对象,通过对数据进行特定破坏转换使其变为无意义的句子,考察了在非意义上下文中该模型的判断能力,发现即便是在数据被破坏之后,该模型在大部分 GLUE 任务上的表现依旧保持较高水平,说明其在预测过程中利用了其他提示信息,同时引入了数据转换的概念,为评估模型语言理解能力提供了一种新方法。
Jan, 2022
探究了文本扰动对 Transformer-based 语言模型的影响,发现换序对模型下游任务性能影响不大,且证实模型对位置编码的使用。研究使用三种印欧语言建立九个 probing 数据集,发现句法敏感度取决于语言和预训练目标,在层数和扰动粒度上敏感度增加且模型几乎不用位置信息产生句法树。
Sep, 2021