自然语言推理模型能否验证问答系统的预测？

EMNLPApr, 2021

自然语言推理模型能否验证问答系统的预测？

Can NLI Models Verify QA Systems' Predictions?

Jifan Chen, Eunsol Choi, Greg Durrett

TL;DR本文探讨如何利用自然语言推理来验证问答系统提供的答案是否正确，并通过使用大型预训练模型和最新的数据集来构建 QA 实例的前提 - 假设配对，进而将 QA 和 NLI 数据集结合以训练 NLI 模型，以此提高 QA 模型的准确性和置信度。

Abstract

To build robust question answering systems, we need the ability to verify whether answers to questions are truly correct, not just "good enough" in the context of imperfect QA datasets. We explore the use of natural language inference (NLI) as a way to achieve this goal, as NLI inheren

question answering natural language inference pre-trained models confidence estimation verification

发现论文，激发创造

利用矛盾来改进问答系统

使用自然语言推理技术和矛盾验证策略来提高问题回答系统的准确性和可靠性在生物医学领域具有重要意义。研究表明使用矛盾验证模型可以在问答选择任务方面取得良好的表现，并且对于解释模型智能性和提高系统可靠性具有潜在意义。

Sep, 2022

利用领域外知识提升科学问题领域自然语言推断

本文提出了一种运用知识图谱的结合方法来提高自然语言推理问题（NLI）领域中性能的技术，该技术在文本、图形和文本到图形的模型上均取得了最新的最优表现，并讨论了外部知识在解决 NLI 问题中的实际意义。

Sep, 2018

将问答数据集转化为自然语言推断数据集

本研究提出了一种基于句子转换模型的新方法，从庞大数量的大型问答数据集中自动派生自然语言推理（NLI）数据集，并展示了其将多种问答数据集成功应用于自然语言推理数据集的能力，从而新派生出包含 50 万个以上 NLI 示例的免费数据集 (QA-NLI)，展示了它呈现的推理现象的宽泛性。

Sep, 2018

探究预训练和知识增强模型在自然语言推理中的应用的多个实验

该研究探索了无监督预训练和外部知识对自然语言推断任务的影响，以了解其如何帮助自然语言理解和解决 NLP 问题。

Apr, 2019

自然语言推理（NLI）在需求工程任务中的应用经验

我们研究了自然语言推理 (NLI) 在自动化需求工程任务中的应用。我们集中在需求分类、需求规范缺陷的识别以及利益相关者需求冲突的检测三个任务。通过在不同学习设置下进行的实验，我们明确证明了我们的 NLI 方法在需求规范分析方面超越了传统的 NLP 方法以及基于大型语言模型和聊天机器人模型的其他方法。此外，我们分享了在学习设置方面的经验教训，使 NLI 成为自动化需求工程任务的合适方法。

Apr, 2024

通过自然语言推理对澄清问题进行排名

教机器提出澄清问题对于自然语言处理系统非常有用，本研究使用 Siamese BERT 模型，将 NLI 的特征运用在 StackExchange 数据集问题排序上，取得了相对于现有基线模型高达 40% 至 60% 的性能提升。

Aug, 2020

不要以为前提成立：减轻自然语言推理中的人为误差

提出两种概率方法以构建更稳健的模型，让其更好地跨数据集进行传递，解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练，并在不含偏差数据集上进行测试，结果表明这些方法能够使模型更加稳健，相比基线模型在 12 个自然语言推理数据集中，有 9 个传输效果更好。

Jul, 2019

自然语言推理在生物医学问答中的可迁移性

本文提出了一种在生物医学问答任务中应用预训练语言模型和迁移学习的方法，并通过实验证明优化迁移学习任务的顺序可以显著提高其性能。

Jul, 2020

一种无需特定语言训练数据的深度自然语言推理预测器

我们提出了一种 NLP 技术，利用通用翻译数据集和知识蒸馏技术，通过两个预训练模型在源语言和目标语言上的表现实现了目标语言的句子关系推理，该技术在多个任务上展现了普适性。

Sep, 2023

对话自然语言推理

这篇论文将对话代理的一致性作为自然语言推理 (NLI) 的任务，并创建了一个名为 Dialogue NLI 的自然语言推理数据集。通过在该数据集上训练模型，提出了一种方法来改善对话模型的一致性，用人类评估和自动指标在一套设计用来衡量对话模型一致性的评估集上进行了评估。

Nov, 2018