用需要简单词汇推理的句子破解 NLI 系统

ACLMay, 2018

用需要简单词汇推理的句子破解 NLI 系统

Breaking NLI Systems with Sentences that Require Simple Lexical Inferences

Max Glockner, Vered Shwartz, Yoav Goldberg

TL;DR我们创建了一个新的 NLI 测试集，展示了当前最先进模型在需要词汇和世界知识的推理方面存在的不足。这些新的例子比 SNLI 测试集更简单，包含的句子与训练集中的句子最多只相差一个单词。然而，对于在 SNLI 上训练的系统，在新的测试集上的表现明显更差，这表明这些系统在泛化能力上受到了限制，未能涵盖许多简单的推理。

Abstract

We create a new nli test set that shows the deficiency of state-of-the-art models in inferences that require lexical and world knowledge. The new examples are simpler than the SNLI test set, containing sentences

nli lexical knowledge world knowledge generalization ability performance

发现论文，激发创造

使用多重量化语句进行自然语言推理神经模型的压力测试

本文提出了一种生成数据集的方法，用于生成特定的自然语言推理例子，从而更精确地表征语义复杂性，并指出仅强制词汇对齐的模型可以避免关键信息的损失。

Oct, 2018

一种用于 NLI 模型领域泛化的合成数据方法

自然语言推理是语言模型的重要基准任务，在领域泛化上的问题中，我们通过生成多样化的合成 NLI 数据，使得模型在全新的下游测试环境中具有最佳的泛化性能。

Feb, 2024

基于跨度级别预测的逻辑推理，实现可解释且鲁棒的自然语言推理模型

通过引入基于逻辑推理的框架，创造出基于逻辑规则的非常透明的模型决策，从而提高自然语言推理模型的可解释性和鲁棒性，并在减少数据的情况下更进一步地改善了模型性能和鲁棒性。

May, 2022

自然语言推理中的句法启发式诊断：看出其本质

通过研究自然语言推断中机器学习模型的三种不可靠启发式方法：词汇重叠启发式，子序列启发式和成分启发式，我们引入了一个名为 HANS 的数据集，以确定模型是否采用了这些启发式，并发现 BERT 等最先进的模型在 HANS 上表现非常差，说明 NLI 系统仍有很大改进空间。

Feb, 2019

使用词汇 - 语义约束生成生物医学自然语言推理数据集用于对抗样本

利用新型半监督过程从现有生物医学数据集生成一个针对复杂决策中自然语言推理问题的数据集 BioNLI，进行负样本生成的实验，准确度中等，在不同的负样本分类上表现不同。

Oct, 2022

语义敏感度与不一致预测：衡量 NLI 模型的脆弱性

通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果，我们提供了证据表明，最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性，这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。

Jan, 2024

上下文中的词汇推断语言模型

该研究利用基于预训练语言模型的方法探究了语义词汇判断任务，并通过构建几个模型在该任务上取得了新的最优结果。

Feb, 2021

另一种否定基准测试：NaN-NLI 分层否定测试套件

本文介绍了一种自然语言推理测试套件，以探索自然语言处理方法的能力，理解子句否定。该测试套件包含基于严格的语言学框架进行的否定类型和构造的注释，以及用于构造假设的操作。作者使用预训练语言模型进行实验，证明了此测试套件比现有的侧重于否定的基准更具挑战性，并展示了作者的注释如何支持对当前自然语言推理能力在否定和量化方面的更深入理解。

Oct, 2022

分析 NLI 模型的组合敏感性

本研究通过实验验证，发现多个最先进的 NLI 模型都过度依赖词汇而无法使用组合语义，因此提出了一种可分析自然语言例句中 NLI 模型组成特性的测试设置，并在已有数据集上测试，这种测试设置可以帮助模型更好地了解复杂的含义，并为模型的改进提供机会。

Nov, 2018

临床领域自然语言推理的启示

介绍了 MedNLI 数据集的自然语言推理任务 (NLI)，并提出了两种解决深度神经网络模型在特定领域泛化能力差的方法：利用开放域数据集进行迁移学习和结合外部数据和词汇来源的领域知识。实验结果表明，两种方法均可提高模型性能。

Aug, 2018