在芝麻街上摇动句法树：使用可控扰动进行多语言探索

EMNLPSep, 2021

在芝麻街上摇动句法树：使用可控扰动进行多语言探索

Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with Controllable Perturbations

Ekaterina Taktasheva, Vladislav Mikhailov, Ekaterina Artemova

TL;DR探究了文本扰动对 Transformer-based 语言模型的影响，发现换序对模型下游任务性能影响不大，且证实模型对位置编码的使用。研究使用三种印欧语言建立九个 probing 数据集，发现句法敏感度取决于语言和预训练目标，在层数和扰动粒度上敏感度增加且模型几乎不用位置信息产生句法树。

Abstract

Recent research has adopted a new experimental field centered around the concept of text perturbations which has revealed that shuffled word order has little to no impact on the downstream performance of Transformer-based language models across many NLP tasks. These findings contradict

text perturbations transformer-based language models probing datasets syntactic sensitivity position embeddings

发现论文，激发创造

多语言 BERT 模型的词形句法探测

本研究介绍了一个广泛的多语言探测词形信息数据集，利用预训练变形金刚模型（mBERT 和 XLM-RoBERTa），并应用两种方法确定输入中区别信息的位置以实现强大的性能。其中最显著的发现是前缀上下文持有比后缀上下文更多相关预测信息。

Jun, 2023

句法数据增强提高推理启发健壮性

本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现，经过尝试，通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73，而对 MNLI 测试集影响不大，表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。

Apr, 2020

语序很重要（洗牌语言模型知道）

研究发现，经过随即排列的句子进行预训练和 / 或微调的语言模型表现出与 GLUE 上竞争力的表现，这给单词顺序信息的重要性带来了质疑。尽管有一些研究表明位置嵌入对于模型在混乱的文本上表现良好似乎很让人费解，但我们对这些语言模型进行了单词顺序信息的探究并研究了从混淆的文本中学习的位置嵌入编码的内容，表明这些模型保留了与原始的自然顺序有关的信息。我们表明，这在某种程度上是由于先前的研究中所实现的混淆的微妙之处 —— 而不是在子单词分段之后而是在之前。但令人惊讶的是，我们发现即使是在子单词分段之后洗牌的文本上训练出的语言模型也保留了单词顺序信息的某些方面，因为句子长度和单字概率之间存在统计依赖关系。最后，我们证明除了 GLUE，各种语言理解任务确实需要单词顺序信息，这往往不能通过微调来学习。

Mar, 2022

Morph Call: 探究多语种 Transformer 的形态句法内容

本研究提出了 Morph Call，它是针对四种不同形态的印欧语言（英语，法语，德语和俄语）的 46 个探测任务套件，使用诱导句子扰动的检测方法，在神经元，层和表示水平上分析了四个多语言 transformers 的形态句法内容，其中包括其不太被探究的蒸馏版本，并研究了精调 POS 标记对模型知识的影响。研究结果表明，精调可以改善和降低探测性能，并改变形态句法知识在模型中的分布。代码和数据公开，希望填补 transformers 的研究空白。

Apr, 2021

通过迭代洗牌研究词序

通过使用一种新的称为 IBIS 的过程，本文否认了一种假说，即单词顺序对于进行 NLP 基准任务而言必须编码含义的观点，我们在 GLUE 套件和各种英语文本流派中的多种情况下证明这一点，并探讨了诸如 IBIS 这样的洗牌推理过程如何有益于语言建模和约束生成。

Sep, 2021

主题感知探测：从句子长度预测到成语识别，神经语言模型对主题的依赖程度如何？

Transformer-based 神经语言模型在自然语言处理任务中取得了最先进的性能，但一个开放问题是这些模型在处理自然语言时在词序 / 句法、词共现 / 主题相关信息中所依赖的程度。本文通过研究基于 Transformer 模型（BERT 和 RoBERTa）在英文一系列探测任务中的表现，从简单词汇任务如句子长度预测到复杂语义任务如成语标记识别，探讨了这个问题，以此加入对这一争论的贡献，并提出了一种新的探测方法 —— 主题感知探测。初步结果显示，Transformer 模型在其中间层既编码了主题信息又编码了非主题信息，但理解习惯用法的能力主要基于它们的识别和编码主题能力。此外，对这些模型在其他标准探测任务上的表现的分析表明，对主题信息相对不敏感的任务也是对这些模型相对困难的任务。

Mar, 2024

多集合免疫接种：跨多个挑战集评估模型的稳健性

探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法，通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。

Nov, 2023

词序的影响：重新排序和生成分析的见解

在本文中，我们通过添加一种顺序重构的视角并选择不同范围的数据集，重新审视了关于词序的假设，包括 “词序与词汇语义冗余” 和 “模型不依赖词序”。实证结果支持 ChatGPT 在推断中依赖于词序，但不能支持或否定词序与词汇语义之间的冗余关系。

Mar, 2024

评估神经语言模型对输入干扰的鲁棒性

我们研究了在现实世界中输入文本可能有噪音或不同于 NLP 系统训练数据分布的情景，通过各种类型的字符级和单词级扰动方法来模拟这种情况，发现语言模型对输入扰动非常敏感，即使引入了很小的变化，其性能也会下降，需要进一步改进模型并对扰动输入进行评估以更加真实地了解 NLP 系统的鲁棒性。

Aug, 2021

深度自然语言处理中脆弱解释的扰动输入

本文探讨了使用对抗性扰动攻击两种最先进的自然语言处理模型的可解释性方法，结果表明，即使对少量单词进行更改，这些方法也可能变得不稳定和不可信。

Aug, 2021