CREPE：带有错误前提的开放领域问答

Nov, 2022

CREPE：带有错误前提的开放领域问答

CREPE: Open-Domain Question Answering with False Presuppositions

Xinyan Velocity Yu, Sewon Min, Luke Zettlemoyer, Hannaneh Hajishirzi

TL;DR介绍了一个包含在线信息获取论坛上的自然分布条件失败的问答数据集 CREPE，其中 25％的问题包含虚假前提；通过实验表明现有的开放域问答模型可以适当地找到前提，但很难预测前提是否属实，CREPE 提供了研究野外问答的基准，并为更好地建模和深入研究任务提供了途径。

Abstract

Information seeking users often pose questions with false presuppositions, especially when asking about unfamiliar topics. Most existing question answering (QA) datasets, in contrast, assume all questions have well defined answers. We introduce crepe, a QA dataset containing a natural

question answering crepe presupposition open-domain natural language processing

发现论文，激发创造

IfQA: 面向反事实前提的开放领域问答数据集

本文介绍了第一个 counterfactual open-domain question-answering（QA）数据集（IfQA），并通过在该数据集上进行实证分析证明了如果就文本假设进行推理和检索是一项具有挑战性的任务。

May, 2023

Syn-QA2: 用合成的 QA 数据集评估长尾问题中的错误假设

通过评估一系列大型语言模型，我们的研究发现：(1) 问题回答中的错误假设具有挑战性，与以往研究结果相一致；(2) 与生成型问题回答相比，二值检测任务本身更具挑战性，可能是由于问题的语言结构；(3) 长尾问题的检测任务比自然存在的问题更具挑战性，突显了我们的合成数据集和生成方法的实用性。

Mar, 2024

ProtoQA: 一个面向原型常识推理的问答数据集

本文介绍了一个新的问答数据集，用于训练和评估人工智能系统在典型情况下的常识推理能力，数据集采用了家庭智慧问答秀中的问题集合，模型评估使用了生成式评估任务，并在多个基线模型中提出了挑战性的性能评估。结果表明，人类表现仍然超过模型成绩，支持任务的挑战性。

May, 2020

PIE-QG: 面向小数据语料库的无监督问句生成的释义信息提取

本文提出的 PIE-QG 方法使用开放信息提取（OpenIE）从释义段落中生成合成训练问题，并利用问题 - 答案对作为基于 BERT 的最先进 QA 系统的训练数据。在五个抽取式 QA 数据集上进行实验表明，我们的技术在没有外部参考数据源的情况下以数量级更少的文档训练，实现了与现有最先进 QA 系统相同的性能。

Jan, 2023

(QA)$^2$: 带问题假设的问答系统

本文提出了（QA）$^2$（包含有问题上有问题的问题的问题回答）的开放域评估数据集，用于测试有问题上有问题的问题的回答系统。该论文研究问题上有问题的问题，旨在解决现有的 QA 系统不能正确回答该类问题的问题。

Dec, 2022

PAQA：面向主动开放式检索的问题回答

为了解决会话式搜索系统中存在的问题，本文提出了 PAQA，这是 AmbiNQ 数据集的扩展，通过考虑用户查询和文档中存在的歧义，生成相关的澄清问题，并评估各种模型以及检索过程对歧义检测和澄清问题生成的影响。

Feb, 2024

回答带有虚假前提的问题

本文发现预训练语言模型内部已经拥有反驳谣言的所需知识，只需要激发其反驳能力，通过 fine-tuning 可以在少量示例（例如 256 个）的情况下区分虚假前提问题，并生成合理的反驳解释。

Jul, 2023

PreWoMe: 借用前提作为长篇问答的工作记忆

本文介绍了 PreWoMe 方法，它可以处理各种类型的信息查询问题，包括引导性问题，并通过利用预设条件作为工作记忆来生成反馈和行动，从而在处理具有不确定输入特征的真实场景中展现了有效性。

Oct, 2023

探究最小编辑问句下的开放领域问答系统对比一致性

本文研究了在自然语言处理中，模型在面对扰动时进行一致性预测的能力，提出了一种基于人工标注和大型语言模型生成的问题集，以改善现有模型在开放域问答任务上的表现，对广泛使用的密集式段落检索器模型（DPR）进行了改进，并通过对比性损失和数据增强技术提高了 DPR 的对比一致性，而不影响其在标准测试集上的准确度。

May, 2023

简单有效的半监督问答

本研究提出一种利用基础文档和少量标注数据进行深度学习提取式问答的方法，并通过对三个不同领域数据集的实验验证了其有效性。

Apr, 2018