信息查询问答中的挑战:无法回答的问题和段落检索
基于 TREC CAsT 基准数据集,我们提出了一种基于生成式 AI 模型的信息检索方法,通过逐步聚合句子级别的分类预测来估计最终的可回答性,从而解决系统信任度以及问题回答精准性的挑战。
Jan, 2024
本论文提出了一种用于机器阅读理解的数据增广技术,通过自动生成相关无法回答的问题并将其与包含答案的段落相配对,提出了一个序列模型,该模型有效地捕捉了问题和段落之间的交互。实验结果表明,该模型相对于序列到序列基线模型表现更好,同时将自动生成的无法回答的问题作为数据增广的一种方法,可以大幅提高 SQuAD 2.0 数据集上的 F1 值。
Jun, 2019
本文研究了利用随机策略训练模型存在识别高语义重叠无关文本摘录能力不足的重要局限性,并发现了一种有效的方法来训练模型以识别此类摘录,通过利用 SQuAD 2.0 数据集的不可回答配对,我们的模型在面对这些具有挑战性的文本摘录时实现了近乎完美的准确性(约 100%)。
Mar, 2024
探讨知识库问答系统中基于知识库的不完整性所导致的问题,并提出了 GrailQAbility 数据集。测试两种最先进的知识库问答模型,发现两种模型无法准确检测和回答无法回答的问题,因此需要进一步研究使知识库问答系统能够克服这个问题。
Dec, 2022
利用 PubMed 作为可靠的医学研究文档集合,针对开放领域的问答设置,研究通过修改检索设置来提高问答系统性能的方法。结果显示,减少检索到的文档数量,偏爱近期和被引用次数较多的文献可以提高最终的宏观 F1 得分达到 10%。
Apr, 2024
一种用于问题回答的数据增强方法,通过对可回答问题进行反义词和实体交换生成不可回答的问题,相比于现有的自动化方法,该方法具有更好的模型性能和更高的人类判断相关性和可读性,并被验证为未来工作的简单但强大的基准。
Oct, 2023
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
本篇论文介绍了一个用于评估大规模句子级别答案检索模型的基准 Retrieval Question-Answering(ReQA),并使用神经编码模型和传统信息检索技术建立了基线。我们提供我们的评估代码以鼓励更多关于这一具有挑战性的任务的研究。
Jul, 2019
SQuAD 2.0 is a dataset that combines existing SQuAD data with over 50,000 unanswerable questions to test extractive reading comprehension systems' abilities to determine when no answer is supported, resulting in a challenging natural language understanding task for existing models that previously achieved only 66% F1 on SQuAD 2.0.
Jun, 2018
本文讲述了一种称为段落排名器的方法,它提高了开放域 QA 管道的性能,通过排名检索文档的段落以获取更高的答案回忆率和更少的噪声。在四个开放域 QA 数据集上,使用段落排名器排名段落和聚合答案相比未使用该方法,性能平均提高了 7.8%,也展示了开放域 QA 与机器理解模型的结合。
Oct, 2018