Spider: 复杂跨领域语义解析和文本到 SQL 任务的大规模人类标注数据集

EMNLPSep, 2018

Spider: 复杂跨领域语义解析和文本到 SQL 任务的大规模人类标注数据集

Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task

Tao Yu, Rui Zhang, Kai Yang, Michihiro Yasunaga, Dongxu Wang...

TL;DR介绍了 Spider 数据集，它是由 11 名大学生注释的大规模、复杂和跨领域的语义分析和文本到 SQL 数据集，涵盖了 200 个数据库中的 138 个不同领域，区别于以往单一数据库且训练集和测试集中使用相同程序的语义分析任务，需要模型具有良好的泛化能力适应新的 SQL 查询和新的数据库架构，经过实验发现最好的模型仅在数据库分割设置上达到了 12.4％的精准匹配准确度，因此结果提出了未来研究的深厚挑战。

Abstract

We present spider, a large-scale, complex and cross-domain semantic parsing and →

spider semantic parsing text-to-sql cross-domain database

发现论文，激发创造

MultiSpider：旨在基准测试多语言文本到 SQL 语义解析

本文介绍了 MultiSpider 数据集与 SAVe 框架，MultiSpider 数据集覆盖 7 种语言，且文中进一步提出了各种语言下，text-to-SQL 语义解析所面临的词汇和结构上的挑战，导致非英语言的解析准确率下降了 6.1％，而 SAVe 框架则通过对 Schema 进行增强从而有助于提升解析的性能。

Dec, 2022

中文 SQL 语义解析的试点研究

构建了一个针对汉语的跨领域 SQL 语义解析数据集，研究使用基于字符和基于词汇的编码器以及不同的嵌入方案来进行语义解析，结果表明基于词汇的语义解析器容易出现分词错误，并且跨语言的词嵌入对于文本到 SQL 有用。

Sep, 2019

SParC: 跨领域上下文语义解析

本研究提出了 SParC 数据集，旨在解决复杂的语义解析问题，该数据集跨域，包含了超过 138 个领域的 200 个复杂数据库，包括 4298 个连贯的问题序列和 12000 多个与 SQL 查询一起注释的单独问题。该数据集引入了新的挑战，如复杂的上下文依赖性、更大的语义多样性，需要在未见领域中进行泛化。研究者使用两种最先进的文本到 SQL 模型进行实验。最佳模型在所有问题上的完全匹配准确率为 20.2％，在所有交互序列上少于 10％，这表明数据集的跨域设置和上下文现象对未来研究具有重大挑战。

Jun, 2019

阿拉伯语文本到 SQL 的 Ar-Spider

在本文中，我们介绍了 Ar-Spider 1，即第一个阿拉伯跨域文本到 SQL 数据集。为了解决语言本质相关的问题，我们采用了两个基线模型 LGESQL 和 S2SQL，并提出了上下文相似性关系（CSR）方法，该方法显著提高了阿拉伯文本到 SQL 的整体性能。

Feb, 2024

Spider4SPARQL: 评估知识图谱问答系统的复杂基准

介绍了一种新的 SPARQL 基准数据集 Spider4SPARQL，包含 9693 个人工生成的 NL 问题和 4721 个独特、新颖且复杂的 SPARQL 查询，以及对应的 166 个知识图和本体，用于评估现代 KGQA 系统的优势和不足之处。

Sep, 2023

通过增加自然语言变化提升语义解析的泛化能力

使用数据增强来增强文本到 SQL 解析器对自然语言变化的鲁棒性，通过大型语言模型生成更真实和多样化的问题，从而在评估集合中实现显著的改进。

Feb, 2024

Dr.Spider：一种针对文本到 SQL 稳健性的诊断评估基准

本文提出了一个跨领域文本到 SQL 基准（Spider）的综合健壮性评测来诊断模型的鲁棒性，并设计了 17 个数据库、自然语言问题和 SQL 查询的扰动来从不同角度衡量其鲁棒性。实验结果表明，即使是最鲁棒的模型在最具挑战性的扰动上也会出现 50.7% 的性能下降，分析了文本到 SQL 模型设计并提出了改进鲁棒性的见解。

Jan, 2023

AraSpider: 民主化的阿拉伯语到 SQL

本研究提出了 AraSpider，这是首个用于改进阿拉伯语社区中自然语言处理（NLP）的 Spider 数据集的阿拉伯语版本。通过测试四种多语言翻译模型的效果来将英语转换为阿拉伯语，并评估两种模型在从阿拉伯文本生成 SQL 查询方面的能力。结果表明，使用回译能显著提高 ChatGPT 3.5 和 SQLCoder 模型的性能，这两个模型在 Spider 数据集中被认为是顶尖的表现者。值得注意的是，ChatGPT 3.5 展现了高质量的翻译能力，而 SQLCoder 在文本到 SQL 任务上表现出色。该研究强调在阿拉伯语 NLP 任务中，融入语境架构并采用回译策略以提高模型性能的重要性。此外，提供了详细的方法可复现性和将数据集翻译为其他语言的方法，突显了该研究在促进透明度和协作知识共享方面的承诺。总的来说，这些贡献推动了 NLP 研究的发展，增强了阿拉伯语研究人员的能力，并丰富了全球关于语言理解和数据库查询的讨论。

Feb, 2024

KaggleDBQA：文本 - SQL 解析器的真实性评估

本文探讨了实现自然语言查询现实关系数据库的挑战，提出了一个新的跨领域评估数据集 KaggleDBQA，并通过引入数据库文档等隐含领域知识的方法，将现有模型的准确性提高了 13.2%。

Jun, 2021

探索跨领域文本到 SQL 泛化的未被充分利用的限制

在研究神经网络将文本描述翻译成 SQL 查询方面，在零射跨域设置下取得了显著进展，但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK，用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中，我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本，并证明当样本需要这种领域知识时，预测准确率显著下降，即使该领域知识出现在训练集中，模型对相关训练样本的预测仍然正确。

Sep, 2021