IslamicPCQA: 伊斯兰文本资源中用于波斯语多跳复杂问答的数据集
本研究创建了一个名为 2WikiMultiHopQA 的新的多跳问题回答数据集,使用结构化和非结构化数据生成问题 - 答案对,并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验,我们证明了我们的数据集对于多跳模型来说具有挑战性,并确保需要使用多跳推理。
Nov, 2020
通过引入 PCoQA 数据集,本研究旨在为会话式问答研究提供第一个波斯语会话式问答数据集,包含多达 9,026 个背景驱动的问题,涉及提问者、回答者和维基百科文档。该数据集对以往问答数据集提供了新的挑战,包括更多开放性非事实性答案、较长答案和更少的词汇重复。本文还介绍了多种基准模型的性能,包括基线模型和预训练模型,并使用预训练模型提升了性能。有关数据集和基准模型可在我们的 Github 页面上获取。
Dec, 2023
将现有的多跳数据集从抽取性答案转变为生成性答案,通过添加常识、算术和符号推理等问题层次,我们创建了一个新的多跳数据集 MoreHopQA,以评估五个大型语言模型,并发现相较于以往的数据集,我们的数据集更具挑战性,其中部分问题分解的分析表明虽然模型可以正确回答问题,但只有某个部分实现了完美推理。
Jun, 2024
本文提出了一个多跳问题回答(Multi-Hop QA)的具体与形式化定义,并对现有的 Multi-Hop QA 框架进行了组织和总结,同时介绍了创建多跳问题回答数据集的最佳方法,以系统全面地介绍这个有趣而具有挑战性的任务。
Apr, 2022
HotpotQA 是一个新的基于维基百科的问题 - 答案对数据集,它具有多篇支持文献上的复杂推理和解释性问题,并提供了对推理所需的句子级支持事实,可以让 QA 系统进行强有力的推理,挑战了最新的 QA 系统。
Sep, 2018
我们介绍了一个众包的波斯语阅读理解数据集,包括 80,000 个问题和答案,其中 25%的问题是具有对抗性无法回答的,该数据集被用于建立波斯语阅读理解和提供基线结果的研究。
Feb, 2022
通过底层方法选择单跳问题对,构建了 MuSiQue-Ans 数据集,包含 2-4 跳问题,比现有数据集更具挑战性,难以通过断开推理进行作弊,旨在帮助自然语言处理社区开发真正具备多跳推理能力的模型。
Aug, 2021
我们介绍了 ComplexTempQA,这是一个大规模数据集,包含超过 1 亿个问题 - 答案对,旨在解决时间问题回答中的挑战。ComplexTempQA 在规模和范围上明显超越了现有的基准,如 HOTPOTQA、TORQUE 和 TEQUILA。利用维基百科和维基数据的数据,该数据集涵盖了跨越两个十年的问题,并提供了无与伦比的广度。我们引入了一个独特的分类法,将问题分为属性、比较和计数问题,每种问题都围绕事件、实体和时间段展开。ComplexTempQA 的一个显著特点是其问题的高复杂性,要求有效的回答能力,例如跨时间比较、时间聚合和涉及时间事件排序和实体识别的多跳推理。此外,每个问题都附带有详细的元数据,包括具体的时间范围,可以全面评估和增强大型语言模型的时间推理能力。ComplexTempQA 既可以作为开发复杂 AI 模型的测试基础,也可以作为推进问题回答、信息检索和语言理解研究的基础。数据集和代码可以在以下网址免费获取:this https URL
Jun, 2024
本文提出了一个复杂的时间问答(QA)数据集 Complex-TR,重点关注多答案和多跳的时间推理,并提出了一种新颖的数据增强策略来改善大型语言模型(LLMs)的复杂时间推理能力和鲁棒性。实验证明,我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。
Nov, 2023