ACLMar, 2022

语序很重要(洗牌语言模型知道)

TL;DR研究发现,经过随即排列的句子进行预训练和 / 或微调的语言模型表现出与 GLUE 上竞争力的表现,这给单词顺序信息的重要性带来了质疑。尽管有一些研究表明位置嵌入对于模型在混乱的文本上表现良好似乎很让人费解,但我们对这些语言模型进行了单词顺序信息的探究并研究了从混淆的文本中学习的位置嵌入编码的内容,表明这些模型保留了与原始的自然顺序有关的信息。我们表明,这在某种程度上是由于先前的研究中所实现的混淆的微妙之处 —— 而不是在子单词分段之后而是在之前。但令人惊讶的是,我们发现即使是在子单词分段之后洗牌的文本上训练出的语言模型也保留了单词顺序信息的某些方面,因为句子长度和单字概率之间存在统计依赖关系。最后,我们证明除了 GLUE,各种语言理解任务确实需要单词顺序信息,这往往不能通过微调来学习。