自然语言推理的压力测试评估

COLINGJun, 2018

Stress Test Evaluation for Natural Language Inference

Aakanksha Naik, Abhilasha Ravichander, Norman Sadeh, Carolyn Rose, Graham Neubig

TL;DR本文提出了一个评估方法，即通过自动构建的 “压力测试” 来测试 NLI 模型的推理能力，评估了六种句子编码模型在这些测试中的表现，揭示了模型在面对复杂语言现象时的优势和劣势，为以后的研究方向提供了重要的指导意义。

Abstract

natural language inference (NLI) is the task of determining if a natural language hypothesis can be inferred from a given premise in a justifiable manner. NLI was proposed as a benchmark task for natural language understanding. Existing models perform well at standard datasets for NLI,

natural language inference evaluation methodology stress tests sentence-encoder models linguistic phenomena

发现论文，激发创造

使用多重量化语句进行自然语言推理神经模型的压力测试

本文提出了一种生成数据集的方法，用于生成特定的自然语言推理例子，从而更精确地表征语义复杂性，并指出仅强制词汇对齐的模型可以避免关键信息的损失。

Oct, 2018

自然语言推理（NLI）在需求工程任务中的应用经验

我们研究了自然语言推理 (NLI) 在自动化需求工程任务中的应用。我们集中在需求分类、需求规范缺陷的识别以及利益相关者需求冲突的检测三个任务。通过在不同学习设置下进行的实验，我们明确证明了我们的 NLI 方法在需求规范分析方面超越了传统的 NLP 方法以及基于大型语言模型和聊天机器人模型的其他方法。此外，我们分享了在学习设置方面的经验教训，使 NLI 成为自动化需求工程任务的合适方法。

Apr, 2024

探究预训练和知识增强模型在自然语言推理中的应用的多个实验

该研究探索了无监督预训练和外部知识对自然语言推断任务的影响，以了解其如何帮助自然语言理解和解决 NLP 问题。

Apr, 2019

超越排行榜：揭示自然语言推理数据和模型弱点方法综述

本文是对近年来有关自然语言推理数据集的研究及其相关算法模型的综述，对模型和数据集中存在的问题进行分类整理，并提出一些可能的研究方向，为未来的研究提供指导建议。

May, 2020

一种无需特定语言训练数据的深度自然语言推理预测器

我们提出了一种 NLP 技术，利用通用翻译数据集和知识蒸馏技术，通过两个预训练模型在源语言和目标语言上的表现实现了目标语言的句子关系推理，该技术在多个任务上展现了普适性。

Sep, 2023

ConjNLI：联合句子的自然语言推理

这篇论文介绍了一个新的自然语言推理挑战 ——ConjNLI，用于测试具有不同布尔和非布尔推理的含多个并列连词 (“and”，“or”，“but”，“nor”)、量词和否定语的结合句子的理解能力。研究表明，像 RoBERTa 这样的预训练语言模型在理解这种句子的语义时仍存在挑战，目前呼吁对于并列的更好理解和处理的未来的工作。

Oct, 2020

自然语言推理模型能否验证问答系统的预测？

本文探讨如何利用自然语言推理来验证问答系统提供的答案是否正确，并通过使用大型预训练模型和最新的数据集来构建 QA 实例的前提 - 假设配对，进而将 QA 和 NLI 数据集结合以训练 NLI 模型，以此提高 QA 模型的准确性和置信度。

Apr, 2021

AMR4NLI：来自语义图的可解释且健壮的 NLI 度量

本研究通过比较语义结构来表示前提和假设之间的语义关系，使用可解释的度量标准计算假设是否是前提的语义子结构，并在三个英文基准测试中评估了使用语境化嵌入和语义图表达的价值，并发现它们提供了互补的信号，并可以在混合模型中一起利用。

Jun, 2023

法律遗嘱陈述的自然语言推理有效性评估

该研究介绍了一个自然语言推理（NLI）数据集，重点是测试遗嘱陈述的有效性，研究表明神经网络模型在该任务中的表现较好，但在某些情况下存在过拟合问题。

Oct, 2022

不确定的自然语言推断

本文介绍了不确定的自然语言推断（UNLI），它是自然语言推断（NLI）的一种改进，通过预测主观概率评估来预测结果，利用概率评估重新标记了部分 SNLI 数据集，并使用现有的分类标签化的 NLI 数据进行预训练，最终模型展示了超越分类标签化的 NLI 任务的更微妙推断的人类表现水平。

Sep, 2019