语义敏感度与不一致预测：衡量 NLI 模型的脆弱性

ACLJan, 2024

语义敏感度与不一致预测：衡量 NLI 模型的脆弱性

Semantic Sensitivities and Inconsistent Predictions: Measuring the Fragility of NLI Models

Erik Arakelyan, Zhaoqi Liu, Isabelle Augenstein

TL;DR通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果，我们提供了证据表明，最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性，这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。

Abstract

Recent studies of the emergent capabilities of transformer-based Natural Language Understanding (NLU) models have indicated that they have an understanding of lexical and compositional semantics. We provide evidence that suggests these claims should be taken with a grain of salt: we fi

transformer-based natural language understanding models lexical and compositional semantics natural language inference models semantic sensitivity performance degradation

发现论文，激发创造

自然语言推理模型的行为分析：揭示三个因素对鲁棒性的影响

研究自然语言推理 (NLI) 模型的鲁棒性，特别关注三个因素：不敏感、极性和未见过的词汇。结果发现，所有模型在处理未见过的反义词语上表现都欠佳，并且容易受到单词和标签之间的简单统计相关性的影响。

May, 2018

分析 NLI 模型的组合敏感性

本研究通过实验验证，发现多个最先进的 NLI 模型都过度依赖词汇而无法使用组合语义，因此提出了一种可分析自然语言例句中 NLI 模型组成特性的测试设置，并在已有数据集上测试，这种测试设置可以帮助模型更好地了解复杂的含义，并为模型的改进提供机会。

Nov, 2018

非自然语言推论

通过一个明确的指标，我们提出了多种度量方法，并研究了哪些特定的排列方式使得大型 Transformer NLU 模型在自然语言推理任务中对随机词序具有一定程度的规律性。我们对此现象进行了综合实证评估，发现无论是基于 Transformer 还是基于 pre-Transformer RNN / ConvNet 结构的编码器，以及跨多种语言（英语和中文）都存在此问题，并提供相关数据和代码。

Dec, 2020

通过语义片段探究自然语言推理模型

通过使用语义片段，作者发现目前自然语言理解领域最先进的模型在布尔协调、量化、条件、比较和单调性推理等方面表现不佳，在这些问题上进行微调，BERT-based 模型可以掌握所有逻辑和单调性片段，同时保持其在已有 NLI 基准测试的性能。

Sep, 2019

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

自然语言推理中的语义多样性

本文通过提出一种新的度量方法和一种称为 Diversity Threshold Generation 的新生成程序来改进对话生成，从而在多样性方面取得了显著进展。

May, 2022

基于 Transformer 的 NLI 模型中的自然逻辑特征因果效应估计

利用因果效应估计策略衡量上下文干预和插入词对于推理标签的影响，通过广泛的干预研究验证模型对不相关变化的稳健性和对有影响变化的敏感性。

Apr, 2024

神经自然语言推断模型部分嵌入了词汇蕴含和否定理论

本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用，并提出了一个新的自然数据集 MoNLI，其中集中了词汇蕴涵和否定的相关内容，通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果，同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。

Apr, 2020

MENLI: 自然语言推理的鲁棒性评估度量

本文提出基于自然语言推断方法的评价指标，相比以往 BERT-based 评价指标更具鲁棒性，并结合其他评价指标可以同时提高鲁棒性和质量指标。

Aug, 2022

使用多重量化语句进行自然语言推理神经模型的压力测试

本文提出了一种生成数据集的方法，用于生成特定的自然语言推理例子，从而更精确地表征语义复杂性，并指出仅强制词汇对齐的模型可以避免关键信息的损失。

Oct, 2018