用于评估 NLP 模型概念合理性的顺序敏感的 Shapley 值

Jun, 2022

用于评估 NLP 模型概念合理性的顺序敏感的 Shapley 值

Order-sensitive Shapley Values for Evaluating Conceptual Soundness of NLP Models

Kaiji Lu, Anupam Datta

TL;DR研究探讨使用新的解释方法 -- 顺序敏感的 Shapley Value 方法评估深度自然语言处理模型对单词顺序的概念正确性的影响，并发现在处理 HANS 数据集和情感分析任务时，某些深度模型对否定构造和主语动词一致性的语法和顺序理解存在局限性。

Abstract

Previous works show that deep nlp models are not always conceptually sound: they do not always learn the correct linguistic concepts. Specifically, they can be insensitive to word order. In order to systematicall

deep nlp models conceptual soundness word order shapley values bert-based nli model

发现论文，激发创造

通过迭代洗牌研究词序

通过使用一种新的称为 IBIS 的过程，本文否认了一种假说，即单词顺序对于进行 NLP 基准任务而言必须编码含义的观点，我们在 GLUE 套件和各种英语文本流派中的多种情况下证明这一点，并探讨了诸如 IBIS 这样的洗牌推理过程如何有益于语言建模和约束生成。

Sep, 2021

大规模神经词嵌入中的顺序建模

提出了一种新的神经语言模型，它不仅包含单词顺序，还包括字符顺序，并利用 skip-gram 网络实现了高效的并行训练，从而在语义和句法类比任务中取得了 85.8％的高分。

Jun, 2015

语序很重要（洗牌语言模型知道）

研究发现，经过随即排列的句子进行预训练和 / 或微调的语言模型表现出与 GLUE 上竞争力的表现，这给单词顺序信息的重要性带来了质疑。尽管有一些研究表明位置嵌入对于模型在混乱的文本上表现良好似乎很让人费解，但我们对这些语言模型进行了单词顺序信息的探究并研究了从混淆的文本中学习的位置嵌入编码的内容，表明这些模型保留了与原始的自然顺序有关的信息。我们表明，这在某种程度上是由于先前的研究中所实现的混淆的微妙之处 —— 而不是在子单词分段之后而是在之前。但令人惊讶的是，我们发现即使是在子单词分段之后洗牌的文本上训练出的语言模型也保留了单词顺序信息的某些方面，因为句子长度和单字概率之间存在统计依赖关系。最后，我们证明除了 GLUE，各种语言理解任务确实需要单词顺序信息，这往往不能通过微调来学习。

Mar, 2022

在芝麻街上摇动句法树：使用可控扰动进行多语言探索

探究了文本扰动对 Transformer-based 语言模型的影响，发现换序对模型下游任务性能影响不大，且证实模型对位置编码的使用。研究使用三种印欧语言建立九个 probing 数据集，发现句法敏感度取决于语言和预训练目标，在层数和扰动粒度上敏感度增加且模型几乎不用位置信息产生句法树。

Sep, 2021

依赖局部性能预测印地语的非典型词序？

通过在印地语 - 乌尔都语树库 (Hindi-Urdu Treebank corpus) 中提取包含明确定义的主语和宾语的句子，并对这些句子的前谓语成分进行有系统的排列，我们测试了依赖长度最小化作为非典型 (OSV) 句法选择的重要预测因素的假设，尤其是在控制给定性和意外度等信息状态的情况下。研究结果显示，虽然非典型的原始语料库句子倾向于在生成的语料库变体中最小化依赖长度，但这一因素在辨别原始语料库句子时并没有显著贡献，超出意外度和给定性的衡量。值得注意的是，话语可预测性成为成分顺序偏好的主要决定因素。这些研究结果得到了 44 名母语为印地语的受试者的人工评价的进一步支持。总的来说，本研究揭示了期望适应在词序决策中的作用，并将结果置于话语产生和信息局部性理论之中。

May, 2024

非对称 Shapley 值：将因果知识纳入模型无关可解释性

通过介绍 Asymmetric Shapley values (ASVs) 这种较少限制的框架，本文提出了这种框架可以改善模型解释、为模型预测中的不公平歧视提供测试、在时序模型中支持逐步增量解释以及支持特征选择研究而无需进行模型重新训练。

Oct, 2019

乱序排列：语句中单词顺序对自然语言理解任务的重要性如何？

此研究发现，BERT 等自然语言处理模型在进行自然语言理解任务时，即使输入词的顺序被随机打乱，其对下游任务的影响几乎不会改变，因为这些模型主要利用表面特征（如情感分析中的关键词情感或自然语言推断中序列对输入的逐词相似性）进行正确的决策。研究结果表明，许多自然语言处理任务不能真正挑战机器对句子含义的理解能力。

Dec, 2020

无需语法的词序排列

研究表明，使用 n-gram 语言模型和 LSTM 语言模型可以更有效地恢复句子的顺序，比一些最先进的句法模型表现更好。

Apr, 2016

聚焦于 OOV：如何变化它们？

我们的研究聚焦于词形屈折在词汇外条件下的问题，通过开发三个系统并测试在词汇外数据集上的性能，我们发现逆行模型在现实情境下的词汇外数据上胜过了所有神经模型，并且由我们的 seq2seq 模型在 SIGMORPHON 2022 共享任务数据的大数据条件下达到了最先进的结果。

Apr, 2024

使用转移的 Shapley 值对大语言模型进行微调的数据选择

提出了一种名为 TS-DShapley 的算法，通过一种高效的基于采样的方法和一种数据价值信息的传递方法，大大减少了 Shapley 基于数据评估的计算成本，可以对大型预训练语言模型进行微调，并在基准自然语言理解（NLU）数据集上提升了语言模型的性能。

Jun, 2023