语序很重要（洗牌语言模型知道）

ACLMar, 2022

语序很重要（洗牌语言模型知道）

Word Order Does Matter (And Shuffled Language Models Know It)

Vinit Ravishankar, Mostafa Abdou, Artur Kulmizev, Anders Søgaard

TL;DR研究发现，经过随即排列的句子进行预训练和 / 或微调的语言模型表现出与 GLUE 上竞争力的表现，这给单词顺序信息的重要性带来了质疑。尽管有一些研究表明位置嵌入对于模型在混乱的文本上表现良好似乎很让人费解，但我们对这些语言模型进行了单词顺序信息的探究并研究了从混淆的文本中学习的位置嵌入编码的内容，表明这些模型保留了与原始的自然顺序有关的信息。我们表明，这在某种程度上是由于先前的研究中所实现的混淆的微妙之处 —— 而不是在子单词分段之后而是在之前。但令人惊讶的是，我们发现即使是在子单词分段之后洗牌的文本上训练出的语言模型也保留了单词顺序信息的某些方面，因为句子长度和单字概率之间存在统计依赖关系。最后，我们证明除了 GLUE，各种语言理解任务确实需要单词顺序信息，这往往不能通过微调来学习。

Abstract

Recent studies have shown that language models pretrained and/or fine-tuned on randomly permuted sentences exhibit competitive performance on GLUE, putting into question the importance of word order information.

language models word order information position embeddings subword segmentation language understanding tasks

发现论文，激发创造

乱序排列：语句中单词顺序对自然语言理解任务的重要性如何？

此研究发现，BERT 等自然语言处理模型在进行自然语言理解任务时，即使输入词的顺序被随机打乱，其对下游任务的影响几乎不会改变，因为这些模型主要利用表面特征（如情感分析中的关键词情感或自然语言推断中序列对输入的逐词相似性）进行正确的决策。研究结果表明，许多自然语言处理任务不能真正挑战机器对句子含义的理解能力。

Dec, 2020

词序的重要性和非重要性

通过研究语言模型的敏感度，提出语言冗余可以解释语言模型对自然语言理解任务中的词序变化不敏感的现象，即词序和其他语言线索（如格标记）提供了重叠和冗余的信息。利用互信息量化词序的信息量，结果显示当词序信息量较低时，模型对未乱序和乱序句子的预测更加一致。此外，发现该影响在不同任务中有所变化，对于某些任务（如 SST-2），语言模型的预测与原始预测几乎始终一致，尽管点互信息（PMI）发生变化，而对于其他任务（如 RTE），当 PMI 较低时，预测的一致性接近随机，即词序真正重要。

Feb, 2024

通过迭代洗牌研究词序

通过使用一种新的称为 IBIS 的过程，本文否认了一种假说，即单词顺序对于进行 NLP 基准任务而言必须编码含义的观点，我们在 GLUE 套件和各种英语文本流派中的多种情况下证明这一点，并探讨了诸如 IBIS 这样的洗牌推理过程如何有益于语言建模和约束生成。

Sep, 2021

词序的影响：重新排序和生成分析的见解

在本文中，我们通过添加一种顺序重构的视角并选择不同范围的数据集，重新审视了关于词序的假设，包括 “词序与词汇语义冗余” 和 “模型不依赖词序”。实证结果支持 ChatGPT 在推断中依赖于词序，但不能支持或否定词序与词汇语义之间的冗余关系。

Mar, 2024

增加遮挡时，词序很重要

本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响，发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加，并且没有位置编码的模型不能完成该任务，这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。

Nov, 2022

遮蔽语言建模和分布假设：有序词预训练对小型模型的影响

本文提出了一个新的解释：遮蔽语言模型 (MLM) 成功地解决了下游任务几乎完全归功于其建模更高阶词共现统计量的能力。

Apr, 2021

无需语法的词序排列

研究表明，使用 n-gram 语言模型和 LSTM 语言模型可以更有效地恢复句子的顺序，比一些最先进的句法模型表现更好。

Apr, 2016

语言模型中生成顺序的重要性

这篇研究通过一种新颖的双通路语言模型研究了单词生成顺序对模型质量的影响，发现先生成功能词，再生成内容词的策略最为有效。

Aug, 2018

BERT 在分类语法角色时不考虑单词顺序… 除非它很重要

通过探究自然语言处理模型中英语 BERT 和 GPT-2 语法角色的表示，发现其后期层次的单词聚类受到词序关系的影响，特别是在某些非典型语境下，词序知识对于正确的分类具有重要的作用，这突出了模型在非常规但至关重要的时刻如何使用上下文。

Mar, 2022

在芝麻街上摇动句法树：使用可控扰动进行多语言探索

探究了文本扰动对 Transformer-based 语言模型的影响，发现换序对模型下游任务性能影响不大，且证实模型对位置编码的使用。研究使用三种印欧语言建立九个 probing 数据集，发现句法敏感度取决于语言和预训练目标，在层数和扰动粒度上敏感度增加且模型几乎不用位置信息产生句法树。

Sep, 2021