信息查询问答中的挑战：无法回答的问题和段落检索

ACLOct, 2020

信息查询问答中的挑战：无法回答的问题和段落检索

Challenges in Information-Seeking QA: Unanswerable Questions and Paragraph Retrieval

Akari Asai, Eunsol Choi

TL;DR本文分析了预训练语言模型在信息查找问题回答方面的挑战和解决方案，包括段落选择和答案预测。作者人手对多语言数据集进行了分类和标注，在此基础上提出了未来在数据集收集和模型开发方面的研究前景。

Abstract

Recent pretrained language models "solved" many reading comprehension benchmarks, where questions are written with access to the evidence document. However, datasets containing →

pretrained language models reading comprehension information-seeking queries answerability prediction dataset creation

发现论文，激发创造

迈向可靠和事实准确的回答生成：检测信息请求对话中无法回答的问题

基于 TREC CAsT 基准数据集，我们提出了一种基于生成式 AI 模型的信息检索方法，通过逐步聚合句子级别的分类预测来估计最终的可回答性，从而解决系统信任度以及问题回答精准性的挑战。

Jan, 2024

为机器阅读理解学习提问无法回答的问题

本论文提出了一种用于机器阅读理解的数据增广技术，通过自动生成相关无法回答的问题并将其与包含答案的段落相配对，提出了一个序列模型，该模型有效地捕捉了问题和段落之间的交互。实验结果表明，该模型相对于序列到序列基线模型表现更好，同时将自动生成的无法回答的问题作为数据增广的一种方法，可以大幅提高 SQuAD 2.0 数据集上的 F1 值。

Jun, 2019

在检索增强开放域问答中的可回答性

本文研究了利用随机策略训练模型存在识别高语义重叠无关文本摘录能力不足的重要局限性，并发现了一种有效的方法来训练模型以识别此类摘录，通过利用 SQuAD 2.0 数据集的不可回答配对，我们的模型在面对这些具有挑战性的文本摘录时实现了近乎完美的准确性（约 100%）。

Mar, 2024

检测知识库问题的可回答性：我的知识是否足够？

探讨知识库问答系统中基于知识库的不完整性所导致的问题，并提出了 GrailQAbility 数据集。测试两种最先进的知识库问答模型，发现两种模型无法准确检测和回答无法回答的问题，因此需要进一步研究使知识库问答系统能够克服这个问题。

Dec, 2022

通过可靠和时间感知的证据检索改善健康问题回答

利用 PubMed 作为可靠的医学研究文档集合，针对开放领域的问答设置，研究通过修改检索设置来提高问答系统性能的方法。结果显示，减少检索到的文档数量，偏爱近期和被引用次数较多的文献可以提高最终的宏观 F1 得分达到 10%。

Apr, 2024

一个生成无法回答问题的轻量级方法

一种用于问题回答的数据增强方法，通过对可回答问题进行反义词和实体交换生成不可回答的问题，相比于现有的自动化方法，该方法具有更好的模型性能和更高的人类判断相关性和可读性，并被验证为未来工作的简单但强大的基准。

Oct, 2023

长格式问答进展的障碍

该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战，在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性，且训练集和验证集存在显著重复。给出了缓解这些问题的建议。

Mar, 2021

ReQA: 面向端到端答案检索模型的评价

本篇论文介绍了一个用于评估大规模句子级别答案检索模型的基准 Retrieval Question-Answering（ReQA），并使用神经编码模型和传统信息检索技术建立了基线。我们提供我们的评估代码以鼓励更多关于这一具有挑战性的任务的研究。

Jul, 2019

知道你不知道什么：SQuAD 无法回答的问题

SQuAD 2.0 is a dataset that combines existing SQuAD data with over 50,000 unanswerable questions to test extractive reading comprehension systems' abilities to determine when no answer is supported, resulting in a challenging natural language understanding task for existing models that previously achieved only 66% F1 on SQuAD 2.0.

Jun, 2018

在开放领域问答中对段落进行排名以提高答案召回率

本文讲述了一种称为段落排名器的方法，它提高了开放域 QA 管道的性能，通过排名检索文档的段落以获取更高的答案回忆率和更少的噪声。在四个开放域 QA 数据集上，使用段落排名器排名段落和聚合答案相比未使用该方法，性能平均提高了 7.8%，也展示了开放域 QA 与机器理解模型的结合。

Oct, 2018