(QA)$^2$: 带问题假设的问答系统
通过评估一系列大型语言模型,我们的研究发现:(1) 问题回答中的错误假设具有挑战性,与以往研究结果相一致;(2) 与生成型问题回答相比,二值检测任务本身更具挑战性,可能是由于问题的语言结构;(3) 长尾问题的检测任务比自然存在的问题更具挑战性,突显了我们的合成数据集和生成方法的实用性。
Mar, 2024
本研究提出了一种用于对话中基于知识的生成模型的事实一致性评估度量,通过结合自动问题生成和问题回答,使用自然语言推理进行回答跨度比较。在 Wizard-of-Wikipedia 数据集上,我们得到了经过人工标注的对话系统输出数据集,并对 $Q^2$ 和其他度量标准进行了彻底的元评估,结果显示它与人类判断具有更高的相关性。
Apr, 2021
本研究介绍了一项新的开放领域问题解答任务 AmbigQA,其中包括找到每个可能的答案,然后为每个答案重写问题以解决歧义问题。我们还构建了 AmbigNQ 数据集,该数据集涵盖了来自 NQ-open 的 14,042 个问题,并发现 NQ-open 中超过一半的问题存在不同源头的歧义,并且我们提出了一种强大的基础模型,表明我们的新任务和数据将支持未来的研究工作。
Apr, 2020
本文研究 Question-Answering 系统在实际部署中的问题,发现在回答引擎之前的管道部件可能会引入多样化且可观的错误,而且即使是针对强大的预训练 QA 模型,性能也会因为这些上游噪声源而显著降低。作者认为在 QA 系统能够真正有效部署之前,还有很大的改进空间。因此,他们强调 QA 评估需要扩展到考虑实际使用情况,并希望他们的研究结果能引起更广泛的关注。
Feb, 2021
本文提出了一个用于自动生成解释的方法来改善基于管道的问答系统,在特定领域(如生物医学领域)中应用 QA 系统的难点在于其 “黑匣子” 性质,该方法是通过考虑三类(成功、无回答和错误回答)用于注释所涉及 QA 组件的输出,并选择一个模板解释来衡量其有效性。
Oct, 2020
通过利用来自维基百科的明确问题数据库,我们提出了一个新的用于回答含糊问题的最新方法,在含糊问题的多个答案的总结中,我们的方法在回收率指标上提高了 15%(相对改进),在评估从预测输出中消除模糊问题的指标上提高了 10%。从生成的问题数据库检索还可以在多样的篇章检索中取得巨大的改进。
Aug, 2023
本文提出了一种新的基于问题蕴含识别(Recognizing Question Entailment)的问答(Question Answering)方法,基于机器学习和深度学习算法,结合信息检索模型,在医疗领域实现了显著的问答准确率提升。
Jan, 2019
SQuAD 2.0 is a dataset that combines existing SQuAD data with over 50,000 unanswerable questions to test extractive reading comprehension systems' abilities to determine when no answer is supported, resulting in a challenging natural language understanding task for existing models that previously achieved only 66% F1 on SQuAD 2.0.
Jun, 2018
本文针对 ARCChallenge 数据集的超越式难题提出了一种系统,该系统利用查询重写、背景知识和文本属于性,成功地提高了端到端 QA 任务的性能,并超越了几个强基线。
Sep, 2018
本研究提出了一个开放式检索问答数据集 SituatedQA,旨在研究在不同时间和地点提出相同问题的语境下,答案是否会发生变化。通过构建该数据集并对现有模型进行实验,发现模型对于更新频繁或少见地点的答案产生困难,同时模型对于过去采集的数据无法在新问答中适应,因此建议将 extra-linguistic context 纳入开放式检索 QA 评估标准中。
Sep, 2021