IslamicPCQA: 伊斯兰文本资源中用于波斯语多跳复杂问答的数据集

Apr, 2023

IslamicPCQA: 伊斯兰文本资源中用于波斯语多跳复杂问答的数据集

IslamicPCQA: A Dataset for Persian Multi-hop Complex Question Answering in Islamic Text Resources

Arash Ghafouri, Hasan Naderi, Mohammad Aghajani asl, Mahdi Firouzmandi

TL;DR本文介绍了 IslamicPCQA 数据集，它是第一个基于非结构化信息源用于回答复杂波斯语问题的数据集，旨在提供复杂波斯语问题的解答，需要多一段文章的推理，并包括支持事实和关键句子来提供强大的推理能力。

Abstract

Nowadays, one of the main challenges for question answering systems is to answer complex questions using various sources of information. Multi-hop questions are a type of complex questions that require multi-step reasoning to answer. In this article, the →

question answering systems multi-hop questions islamicpcqa dataset persian language reasoning ability

发现论文，激发创造

构建用于全面评估推理步骤的多跳问答数据集

本研究创建了一个名为 2WikiMultiHopQA 的新的多跳问题回答数据集，使用结构化和非结构化数据生成问题 - 答案对，并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验，我们证明了我们的数据集对于多跳模型来说具有挑战性，并确保需要使用多跳推理。

Nov, 2020

PCoQA：波斯语会话问答数据集

通过引入 PCoQA 数据集，本研究旨在为会话式问答研究提供第一个波斯语会话式问答数据集，包含多达 9,026 个背景驱动的问题，涉及提问者、回答者和维基百科文档。该数据集对以往问答数据集提供了新的挑战，包括更多开放性非事实性答案、较长答案和更少的词汇重复。本文还介绍了多种基准模型的性能，包括基线模型和预训练模型，并使用预训练模型提升了性能。有关数据集和基准模型可在我们的 Github 页面上获取。

Dec, 2023

MoreHopQA: 超越多跳推理

将现有的多跳数据集从抽取性答案转变为生成性答案，通过添加常识、算术和符号推理等问题层次，我们创建了一个新的多跳数据集 MoreHopQA，以评估五个大型语言模型，并发现相较于以往的数据集，我们的数据集更具挑战性，其中部分问题分解的分析表明虽然模型可以正确回答问题，但只有某个部分实现了完美推理。

Jun, 2024

多跳推理数据集设计选择的理解

本文研究两个新的数据集对于多跳推理问题，探究了句子分层模型和无标记版本中的伪相关性。结果表明，高绩效模型可能没有像以前想象的那样学到足够的多跳推理。

Apr, 2019

多跳问答与生成综述

本文提出了一个多跳问题回答（Multi-Hop QA）的具体与形式化定义，并对现有的 Multi-Hop QA 框架进行了组织和总结，同时介绍了创建多跳问题回答数据集的最佳方法，以系统全面地介绍这个有趣而具有挑战性的任务。

Apr, 2022

HotpotQA: 一个用于多阶段问题回答的多样化和可解释数据集

HotpotQA 是一个新的基于维基百科的问题 - 答案对数据集，它具有多篇支持文献上的复杂推理和解释性问题，并提供了对推理所需的句子级支持事实，可以让 QA 系统进行强有力的推理，挑战了最新的 QA 系统。

Sep, 2018

PQuAD：一个波斯语问答数据集

我们介绍了一个众包的波斯语阅读理解数据集，包括 80,000 个问题和答案，其中 25％的问题是具有对抗性无法回答的，该数据集被用于建立波斯语阅读理解和提供基线结果的研究。

Feb, 2022

MuSiQue: 通过单跳问题构建实现多跳问题

通过底层方法选择单跳问题对，构建了 MuSiQue-Ans 数据集，包含 2-4 跳问题，比现有数据集更具挑战性，难以通过断开推理进行作弊，旨在帮助自然语言处理社区开发真正具备多跳推理能力的模型。

Aug, 2021

复杂时间问题回答的大规模数据集：ComplexTempQA

我们介绍了 ComplexTempQA，这是一个大规模数据集，包含超过 1 亿个问题 - 答案对，旨在解决时间问题回答中的挑战。ComplexTempQA 在规模和范围上明显超越了现有的基准，如 HOTPOTQA、TORQUE 和 TEQUILA。利用维基百科和维基数据的数据，该数据集涵盖了跨越两个十年的问题，并提供了无与伦比的广度。我们引入了一个独特的分类法，将问题分为属性、比较和计数问题，每种问题都围绕事件、实体和时间段展开。ComplexTempQA 的一个显著特点是其问题的高复杂性，要求有效的回答能力，例如跨时间比较、时间聚合和涉及时间事件排序和实体识别的多跳推理。此外，每个问题都附带有详细的元数据，包括具体的时间范围，可以全面评估和增强大型语言模型的时间推理能力。ComplexTempQA 既可以作为开发复杂 AI 模型的测试基础，也可以作为推进问题回答、信息检索和语言理解研究的基础。数据集和代码可以在以下网址免费获取：this https URL

Jun, 2024

通过多跳问答数据集和伪指导调整实现大型语言模型的鲁棒性时序推理

本文提出了一个复杂的时间问答（QA）数据集 Complex-TR，重点关注多答案和多跳的时间推理，并提出了一种新颖的数据增强策略来改善大型语言模型（LLMs）的复杂时间推理能力和鲁棒性。实验证明，我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。

Nov, 2023