DBLP-QuAD: 一个基于 DBLP 学术知识图谱的问答数据集

Mar, 2023

DBLP-QuAD: 一个基于 DBLP 学术知识图谱的问答数据集

DBLP-QuAD: A Question Answering Dataset over the DBLP Scholarly Knowledge Graph

PDF

Debayan Banerjee, Sushil Awale, Ricardo Usbeck, Chris Biemann

TL;DR本文在 DBLP 学术知识图谱上创建了一个问答数据集，其中包括 10,000 个问题答案对以及相应的 SPARQL 查询，可在 DBLP KG 上执行以获取正确答案。DBLP-QuAD 是最大的学术问答数据集。

Abstract

In this work we create a question answering dataset over the dblp scholarly →

dblp question answering knowledge graph sparql queries scholarly

发现论文，激发创造

QALD-9-plus: 面向 DBpedia 和 Wikidata 的多语言问题回答数据集（由本地说话人翻译）

通过将高质量问题的翻译引入到最受欢迎的 KGQA 基准测试之一 QALD-9 中，从 DBpedia 到 Wikidata 的迁移和添加 8 种语言的支持来扩展 QALD-9 基准测试，从而增强了数据集的可用性和相关性，该数据集称为 QALD-9-Plus，将提供在线支持。

Jan, 2022

SQuAD: 文本机器理解 10 万 + 问题

本研究介绍了 Stanford Question Answering Dataset (SQuAD)，一种包含超过 100,000 个问题的阅读理解数据集，旨在研究回答这些问题所需要的类型推理方式，研究使用依赖和组成树建立了强大的逻辑回归模型，并在数据集上获得了 51.0% 的 F1 分数。

Jun, 2016

QUADRo: 问题 - 答案数据库检索的数据集和模型

本文提出了一种基于神经信息检索和重新排名的自动问答系统，利用包含 6.3M 问题和回答对的数据库，实现了开放域问答并超越了传统的非结构化文本或图形搜索方法，并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优，该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。

Mar, 2023

Quasar: 通过搜索和阅读获取问题回答的数据集

该研究提出了两个数据集，用于评估自然语言查询的理解和从大量文本语料库中提取答案的系统。Quasar-S 数据集由 37000 个填空式查询构成，Quasar-T 数据集由 43000 个开放领域的问答问题和它们的答案组成。我们将这些数据集作为事实型问题回答的两个相关子任务的挑战，并评估了几个基线模型，并显示它们在 Quasar-S 和 - T 方面落后于人类表现 16.4％和 32.1％。

Jul, 2017

利用 LLM 在学术知识图谱问答中的优化

使用大型语言模型，该研究论文介绍了一种学术知识图谱问答（KGQA）系统，通过少量示例解决书目自然语言问题。模型使用基于 BERT 的句子编码器来识别与给定测试问题相关的前 n 个相似训练问题，并检索它们对应的 SPARQL 查询。利用前 n 个相似问题 - SPARQL 对作为示例以及测试问题创建提示，并将其传递给大型语言模型以生成 SPARQL 查询。最后，在底层知识图谱（Open Research KG）端点上运行 SPARQL 查询并返回答案。该系统在 Scholarly-QALD-23 挑战基准中的 SciQA 数据集上获得了 99.0% 的 F1 分数。

Nov, 2023

SciGraphQA：面向科学图表的大规模合成多轮问答数据集

本文介绍了 SciGraphQA，这是一个与学术图表相关的合成多轮问答数据集，它是迄今为止最大的非合成图表视觉问答数据集，使用 Palm-2 从计算机科学和机器学习 ArXiv 论文中生成了 295K 个开放式多轮问答对话样本，并通过 GPT-4 评估了问题 - 回答的匹配质量。最后，通过利用从图表中提取的序列化数据表格和 DePlot 模型，使用 LLaVA-13B 进行了进一步的改进，最终的评估 CIDEr 为 0.26。

Aug, 2023

NorQuAD: 挪威问答数据集

本文介绍了 NorQuAD 数据集，这是第一个用于机器阅读理解的挪威问答数据集，包含 4,752 个手动创建的问题和答案对。我们详细介绍了数据收集过程，并陈述了数据集的统计信息。我们还对数据集进行了多语言和挪威单语言语言模型的基准测试，并将它们与人类表现进行了比较。该数据集将免费提供。

May, 2023

Spider4SPARQL: 评估知识图谱问答系统的复杂基准

介绍了一种新的 SPARQL 基准数据集 Spider4SPARQL，包含 9693 个人工生成的 NL 问题和 4721 个独特、新颖且复杂的 SPARQL 查询，以及对应的 166 个知识图和本体，用于评估现代 KGQA 系统的优势和不足之处。

Sep, 2023

知识图谱问答排行榜：一个社区资源以防止复制危机

该研究调查并分析了过去十年中 100 个出版物和 98 个系统的广泛评估结果，为知识图谱问答领域提供了一个新的开放的排行榜，强调了 KGQA 系统评估中的问题，并指出可能会对未来评估有所改进。

Jan, 2022

知识图谱问答数据集及其通用性：对未来研究是否足够？

该研究分析了 25 个已知的知识图谱上的 5 种不同知识图谱的数据集以及现有方法对于知识图谱问答的泛化能力不足的问题，提出了一种无需成本和手动努力就能重新拆分 KGQA 数据集以评估泛化能力的缓解方法，并在三个数据集上进行了实验证明了其有效性。

May, 2022