ConjNLI：联合句子的自然语言推理

EMNLPOct, 2020

ConjNLI: Natural Language Inference Over Conjunctive Sentences

Swarnadeep Saha, Yixin Nie, Mohit Bansal

TL;DR这篇论文介绍了一个新的自然语言推理挑战 ——ConjNLI，用于测试具有不同布尔和非布尔推理的含多个并列连词 (“and”，“or”，“but”，“nor”)、量词和否定语的结合句子的理解能力。研究表明，像 RoBERTa 这样的预训练语言模型在理解这种句子的语义时仍存在挑战，目前呼吁对于并列的更好理解和处理的未来的工作。

Abstract

Reasoning about conjuncts in conjunctive sentences is important for a deeper understanding of conjunctions in English and also how their usages and →

conjuncts conjunctions natural language inference semantics pre-trained language models

发现论文，激发创造

另一种否定基准测试：NaN-NLI 分层否定测试套件

本文介绍了一种自然语言推理测试套件，以探索自然语言处理方法的能力，理解子句否定。该测试套件包含基于严格的语言学框架进行的否定类型和构造的注释，以及用于构造假设的操作。作者使用预训练语言模型进行实验，证明了此测试套件比现有的侧重于否定的基准更具挑战性，并展示了作者的注释如何支持对当前自然语言推理能力在否定和量化方面的更深入理解。

Oct, 2022

使用多重量化语句进行自然语言推理神经模型的压力测试

本文提出了一种生成数据集的方法，用于生成特定的自然语言推理例子，从而更精确地表征语义复杂性，并指出仅强制词汇对齐的模型可以避免关键信息的损失。

Oct, 2018

将句子对 NLI 模型拓展至长文本和聚类的推理能力

本研究探讨了 NLI 模型的直接零 - shot 应用，包括分析其对更长和越界输入的鲁棒性，开发新的聚合方法以操作完整文档，并在 ContractNLI 数据集上达到最先进的表现，并发现 NLI 分数提供强大的检索信号，并且比常见的相似性基于的方法提供更具相关性的证据提取。同时通过研究文档集群来鉴别不同来源之间的差异和共识，研究发现相同主题的维基百科页面在不同语言中存在实际不一致。

Apr, 2022

上下文中的自然语言推断 -- 探讨长文本中的上下文推理

介绍一种新的基于长文本语境下的对比学习模型 ConTRoL，该模型具有一定难度，能够检测语境推理中的各种类型，并且在测试中结果表明该模型比自然语言处理的最先进模型表现得更好，同时还可进行事实正确性验证任务。

Nov, 2020

ContractNLI: 合同文件级别自然语言推理数据集

本研究提出了一种新的自然语言推理应用 —— 针对合同的 “文档级自然语言推理”，解决了合同审查过于耗时和过于昂贵的问题，并标注并发布了目前最大的包括 607 个合同的语料库。研究还指出，以往的模型在该任务上表现不佳，而研究者引入了一种新的算法，并通过多标签分类和更复杂的上下文分割方法使该任务取得了显著进展，并认为这一领域还有很大的改进空间。

Oct, 2021

自然语言推理的对偶级别监督对比学习

本文提出一种基于对偶句子级别的监督对比学习（PairSCL）方法，采用交叉注意力机制学习句子对的联合表示，并使用对比学习目标来区分不同类别的句子对，在两个公共 NLI 数据集上，PairSCL 的准确性平均优于其他方法 2.1％，并在文本分类的七个转移任务上超过了先前的最新方法。

Jan, 2022

ArNLI：用于蕴涵和矛盾检测的阿拉伯语自然语言推理

该研究提出了一个新的基于机器学习模型的方法来检测阿拉伯语句子对之间的矛盾。作者创建了一个丰富的数据集（ArNLI）来进行实验，并进行了多个传统机器学习分类器的比较，其中 Random Forest 分类器在三个测试数据集中的准确率分别为 99％、60％和 75％。

Sep, 2022

自然语言推理模型能否验证问答系统的预测？

本文探讨如何利用自然语言推理来验证问答系统提供的答案是否正确，并通过使用大型预训练模型和最新的数据集来构建 QA 实例的前提 - 假设配对，进而将 QA 和 NLI 数据集结合以训练 NLI 模型，以此提高 QA 模型的准确性和置信度。

Apr, 2021

使用 LSTM 学习自然语言推断

本文使用 LSTM 结构，将 match-LSTM 方法引入进行单词级联匹配以预测自然语言推理中的矛盾或中性关系标签，并在 Stanford 自然语言推理数据集上表现出比其他深度神经网络方法更高的 86.1% 的准确率。

Dec, 2015

用需要简单词汇推理的句子破解 NLI 系统

我们创建了一个新的 NLI 测试集，展示了当前最先进模型在需要词汇和世界知识的推理方面存在的不足。这些新的例子比 SNLI 测试集更简单，包含的句子与训练集中的句子最多只相差一个单词。然而，对于在 SNLI 上训练的系统，在新的测试集上的表现明显更差，这表明这些系统在泛化能力上受到了限制，未能涵盖许多简单的推理。

May, 2018