在检索增强开放域问答中的可回答性
本文提出了一种基于数据和文本的统一问答框架 UDT-QA,并使用数据到文本方法将 Wiki 百科中的表格和 Wikidata 中的图表达为口语化信息,以扩展知识索引。实验证明,该方法取得了自然问答 (Single-model state-of-the-art) 的最佳成果,并表明对于调整和热插拔的两种情况,口语化知识的优先考虑可以优化答案推理。
Oct, 2021
本文分析了预训练语言模型在信息查找问题回答方面的挑战和解决方案,包括段落选择和答案预测。作者人手对多语言数据集进行了分类和标注,在此基础上提出了未来在数据集收集和模型开发方面的研究前景。
Oct, 2020
研究开放领域问答(ODQA)中,当应用于广泛不同的领域时,此类模型的稳健性和应用性能。该研究提出了一个更现实和具有挑战性的领域转移评估环境,并研究了端到端的模型性能。他们发现,不仅模型在推广方面表现出失败,且高检索分数通常也不能提供准确的答案预测。最后,研究提出并评估了多种干预方法,其提高了端到端答案 F1 得分,最多可达 24 个点。
Dec, 2022
本文提出了一种新的 open domain question answering 方法,利用问题 - 回答对来同时学习 retriever 和 reader,将 Wikipedia 中的证据检索视为潜在变量,并通过 Inverse Cloze Task 进行预训练。我们的方法在五个 QA 数据集上进行测试,表明在用户真正寻求答案的数据集上,学习检索至关重要,完全匹配方面的得分比传统的 IR 系统(如 BM25)高达 19 个点。
Jun, 2019
提出一种新颖的开放领域问答框架,使用中介模块对异构知识源上的单跳 / 多跳问题进行回答。在预训练语言模型的基础上,通过将检索到的证据与其相关的全局上下文链接到图中,并将它们组织成候选证据链,实现了竞争性的性能。在两个 ODQA 数据集 OTT-QA 和 NQ 上,我们的模型显著优于之前最先进的方法,在 OTT-QA 上具有 47.3 的精确匹配分数(相对增益 45%)。
Oct, 2022
本文提出了一种基于大型语言模型的自我点拨框架 (Self-Prompting framework),使得在开放域下的问答任务 (Open-Domain Question Answering) 可以在不需要训练数据和外部知识库的情况下实现,采用该方法在三个广泛使用的 ODQA 数据集上,实验结果优于之前的最先进方法,在 EM 指标上平均提高了 8.8 个百分点,并且能够实现与多种检索增强的微调模型相比较的性能。
Dec, 2022
本文针对欧洲议会选举的数据进行建模,提出了一种基于随机森林和多层感知器神经网络相结合的方法,去完成对选民意向的预测任务,该模型相比其他模型具有更好的预测准确度和稳定性。
May, 2022