MultiSpider:旨在基准测试多语言文本到 SQL 语义解析
在本文中,我们介绍了 Ar-Spider 1,即第一个阿拉伯跨域文本到 SQL 数据集。为了解决语言本质相关的问题,我们采用了两个基线模型 LGESQL 和 S2SQL,并提出了上下文相似性关系(CSR)方法,该方法显著提高了阿拉伯文本到 SQL 的整体性能。
Feb, 2024
本研究提出了 AraSpider,这是首个用于改进阿拉伯语社区中自然语言处理(NLP)的 Spider 数据集的阿拉伯语版本。通过测试四种多语言翻译模型的效果来将英语转换为阿拉伯语,并评估两种模型在从阿拉伯文本生成 SQL 查询方面的能力。结果表明,使用回译能显著提高 ChatGPT 3.5 和 SQLCoder 模型的性能,这两个模型在 Spider 数据集中被认为是顶尖的表现者。值得注意的是,ChatGPT 3.5 展现了高质量的翻译能力,而 SQLCoder 在文本到 SQL 任务上表现出色。该研究强调在阿拉伯语 NLP 任务中,融入语境架构并采用回译策略以提高模型性能的重要性。此外,提供了详细的方法可复现性和将数据集翻译为其他语言的方法,突显了该研究在促进透明度和协作知识共享方面的承诺。总的来说,这些贡献推动了 NLP 研究的发展,增强了阿拉伯语研究人员的能力,并丰富了全球关于语言理解和数据库查询的讨论。
Feb, 2024
介绍了 Spider 数据集,它是由 11 名大学生注释的大规模、复杂和跨领域的语义分析和文本到 SQL 数据集,涵盖了 200 个数据库中的 138 个不同领域,区别于以往单一数据库且训练集和测试集中使用相同程序的语义分析任务,需要模型具有良好的泛化能力适应新的 SQL 查询和新的数据库架构,经过实验发现最好的模型仅在数据库分割设置上达到了 12.4%的精准匹配准确度,因此结果提出了未来研究的深厚挑战。
Sep, 2018
构建了一个针对汉语的跨领域 SQL 语义解析数据集,研究使用基于字符和基于词汇的编码器以及不同的嵌入方案来进行语义解析,结果表明基于词汇的语义解析器容易出现分词错误,并且跨语言的词嵌入对于文本到 SQL 有用。
Sep, 2019
本文提出了一个跨领域文本到 SQL 基准(Spider)的综合健壮性评测来诊断模型的鲁棒性,并设计了 17 个数据库、自然语言问题和 SQL 查询的扰动来从不同角度衡量其鲁棒性。实验结果表明,即使是最鲁棒的模型在最具挑战性的扰动上也会出现 50.7% 的性能下降,分析了文本到 SQL 模型设计并提出了改进鲁棒性的见解。
Jan, 2023
本文提出了一种技术,使长文本序列可以通过 transformers 处理,这对于自然语言到 SQL 查询的翻译非常有用,该技术包括训练过程、数据库架构修剪和多语言方法。
Jun, 2023
本研究针对语义解析这一重要的自然语言处理任务,提出了针对越南语的首个公共大规模 Text-to-SQL 语义解析数据集,并在该数据集上评估了两种强大的语义解析基线,通过比较不同配置条件发现自动越南语词语分割、来自越南神经依存句法分析器的潜在句法特征等都能够有效提高语义解析的匹配度,而针对越南语的单语言模型 PhoBERT 更胜于近期最佳的多语言模型 XLM-R。
Oct, 2020
该研究通过使用大型语言模型(LLMs)来进行文本到 SQL 程序合成的各种方法以及相关的结果和见解,通过使用流行的 Text-to-SQL 数据集(spider)输入自然语言问题和数据库模式并生成正确的 SQL SELECT 查询。通过细调 WizardLM 的 WizardCoder-15B 模型和 fine-tuning gpt-3.5-turbo-16k(Few-shot)+ gpt-4-turbo(Zero-shot error correction)的方式,查询的执行准确率达到了较高的 82.1%。大部分错误查询可以归为七个不同的类别,这揭示了 LLM 程序合成的瑕疵以及可改进的方向。
Jan, 2024
使用大型语言模型(LLMs)在 Text-to-SQL 系统方面的潜力主要集中在英文单语数据集上的评估,然而,LLMs 在其他语言上的表现鲜有研究。本研究发布了 StatBot.Swiss 数据集,这是第一个基于真实应用程序评估 Text-to-SQL 系统的双语基准数据集。StatBot.Swiss 数据集包含了 455 个英文和德文之间的自然语言 / SQL 对,涵盖了 35 个不同难度级别的大型数据库。我们使用 GPT-3.5-Turbo 和 mixtral-8x7b-instruct 等最先进的 LLMs 来评估 Text-to-SQL 翻译任务的性能,并采用上下文学习方法。我们的实验分析表明,目前的 LLMs 在生成 SQL 查询语句方面在我们的新型双语数据集上普遍存在泛化能力不佳的问题。
Jun, 2024