Spider4SPARQL: 评估知识图谱问答系统的复杂基准

Sep, 2023

Spider4SPARQL: 评估知识图谱问答系统的复杂基准

Spider4SPARQL: A Complex Benchmark for Evaluating Knowledge Graph Question Answering Systems

Catherine Kosten, Philippe Cudré-Mauroux, Kurt Stockinger

TL;DR介绍了一种新的 SPARQL 基准数据集 Spider4SPARQL，包含 9693 个人工生成的 NL 问题和 4721 个独特、新颖且复杂的 SPARQL 查询，以及对应的 166 个知识图和本体，用于评估现代 KGQA 系统的优势和不足之处。

Abstract

With the recent spike in the number and availability of large language models (LLMs), it has become increasingly important to provide large and realistic benchmarks for evaluating knowledge graph question answering

large language models knowledge graph question answering sparql benchmark dataset nl/sparql pairs kgqa systems

发现论文，激发创造

ScienceBenchmark：一个复杂的真实世界基准测试，用于评估自然语言转 SQL 系统

本文介绍了 ScienceBenchmark，这是一个 NL-to-SQL 基准，旨在使高度特定于领域的数据库中的自然语言查询能够正常工作，并扩展了人工生成数据的数量，以使用 GPT-3 生成合成数据。

Jun, 2023

Spider: 复杂跨领域语义解析和文本到 SQL 任务的大规模人类标注数据集

介绍了 Spider 数据集，它是由 11 名大学生注释的大规模、复杂和跨领域的语义分析和文本到 SQL 数据集，涵盖了 200 个数据库中的 138 个不同领域，区别于以往单一数据库且训练集和测试集中使用相同程序的语义分析任务，需要模型具有良好的泛化能力适应新的 SQL 查询和新的数据库架构，经过实验发现最好的模型仅在数据库分割设置上达到了 12.4％的精准匹配准确度，因此结果提出了未来研究的深厚挑战。

Sep, 2018

知识图谱通用问答平台

本文提出了 KGQAn，一个通用的 QA 系统，它不需要为每个目标 KG 进行定制，而是采用一种新颖的形式化方法将问题理解为一个文本生成问题，并通过神经序列到序列模型将问题转换为中间抽象表示。我们还开发了一个即时链接器，在查询时间使用 RDF 存储的公共可访问 API 和现有索引将抽象表示映射到特定 KG 的 SPARQL 查询，而无需任何预处理。我们在几个真实的 KG 上进行的实验表明，KGQAn 易于部署，对于任意的 KG 表现良好，优于现有的 QA 系统。

Mar, 2023

利用 LLM 在学术知识图谱问答中的优化

使用大型语言模型，该研究论文介绍了一种学术知识图谱问答（KGQA）系统，通过少量示例解决书目自然语言问题。模型使用基于 BERT 的句子编码器来识别与给定测试问题相关的前 n 个相似训练问题，并检索它们对应的 SPARQL 查询。利用前 n 个相似问题 - SPARQL 对作为示例以及测试问题创建提示，并将其传递给大型语言模型以生成 SPARQL 查询。最后，在底层知识图谱（Open Research KG）端点上运行 SPARQL 查询并返回答案。该系统在 Scholarly-QALD-23 挑战基准中的 SciQA 数据集上获得了 99.0% 的 F1 分数。

Nov, 2023

AutoQGS：从 SPARQL 中自动生成基于知识的低资源问题生成的自动提示

本研究提出了一种基于自动提示的方法来处理低资源情况下的知识问答生成（KBQG），通过从 SPARQL 中直接生成问题并使用基于自然语言生成模型的自动提示器实现 SPARQL 和自然语言描述之间的转化，从而在 WebQuestionsSP、ComlexWebQuestions1.1 和 PathQuestions 等数据集上取得了最新的性能

Aug, 2022

KQA Pro: 拥有显式组合程序的知识库复杂问答数据集

本文介绍了一个题库 KQA Pro，旨在解决现有题库对多复杂推理能力的不足，采用了一种可组合且可解释的编程语言 KoPL 来表示复杂问题的推理过程，提供了与每个问题对应的 KoPL 程序和 SPARQL 查询，可以用于知识库问答和语义解析任务，并将其视为测试多种推理能力的诊断性数据集。实验结果表明，SOTA KBQA 方法在 KQA Pro 上无法取得与当前数据集同样的优异结果，这表明 KQA Pro 很具有挑战性，需要进一步的研究努力。

Jul, 2020

为知识图谱问答生成使用实体预训练 GPT 的 SPARQL

我们的研究致力于通过自然语言处理工具和创意鼓励来解决大众用户查询知识图谱的问题，我们的方法是通过正确的实体链接和训练 GPT 模型从自然语言问题中创建 SPARQL 查询，我们获得了在测试中 3 次查询命中准确度为 62.703%，实体链接挑战的 F1 值为 0.809，问题回答挑战的 F1 值为 0.009。

Feb, 2024

用于理解知识图谱在企业 SQL 数据库问答中大型语言模型准确性的基准

通过在企业 SQL 数据库上直接应用零样本提示，使用 GPT-4 进行问答可以达到 16% 的准确率；当在企业 SQL 数据库的知识图表示上提出问题时，准确率增加到 54%。因此，投资于知识图为 LLM 驱动的问答系统提供了更高的准确性。

Nov, 2023

交互式 KBQA：大型语言模型的知识库问答多轮交互

通过与知识库进行直接交互生成逻辑形式，我们引入了 Interactive-KBQA 框架来解决知识库问答领域的问题，该框架包括三种通用 API 用于知识库交互，通过步骤推理过程注释数据集，展示了我们模型的适应性和潜力，并在低资源场景中以极少的示例达到了优秀的结果。

Feb, 2024

基于知识库的通用且可解释的时间问答基准

本文提出了一个基于 Wikidata 的时间问答数据集 TempQA-WD，以鼓励更多的研究在复杂推理任务方面的延伸和拓展。该数据集具有以下特点：（a）包含了中间 sparql 查询以方便基于语义解析的 KBQA 方法的评估，（b）可以推广到多个知识库，如 Freebase 和 Wikidata，（c）挑战性更强。

Jan, 2022