探索跨领域文本到 SQL 泛化的未被充分利用的限制

EMNLPSep, 2021

探索跨领域文本到 SQL 泛化的未被充分利用的限制

Exploring Underexplored Limitations of Cross-Domain Text-to-SQL Generalization

Yujian Gan, Xinyun Chen, Matthew Purver

TL;DR在研究神经网络将文本描述翻译成 SQL 查询方面，在零射跨域设置下取得了显著进展，但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK，用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中，我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本，并证明当样本需要这种领域知识时，预测准确率显著下降，即使该领域知识出现在训练集中，模型对相关训练样本的预测仍然正确。

Abstract

Recently, there has been significant progress in studying neural networks for translating text descriptions into SQL queries under the zero-shot cross-domain setting. Despite achieving good performance on some public benchmarks, we observe that existing →

neural networks text-to-sql domain knowledge spider-dk prediction accuracy

发现论文，激发创造

评估跨领域文本到 SQL 模型和基准

通过对几个重要的跨领域文本到 SQL 基准进行广泛的研究和重新评估，本文发现由于提供的样本可能有多个解释，这些基准的完美表现是不可行的，并且在重新评估后，模型的相对性能会发生变化。最令人瞩目的是，我们的评估发现，最近基于 GPT4 的模型在人工评估中超过了 Spider 基准中的金标准参考查询，这一发现强调了在谨慎解读基准评估的同时，独立评估在推动该领域进展中起到关键作用。

Oct, 2023

Dr.Spider：一种针对文本到 SQL 稳健性的诊断评估基准

本文提出了一个跨领域文本到 SQL 基准（Spider）的综合健壮性评测来诊断模型的鲁棒性，并设计了 17 个数据库、自然语言问题和 SQL 查询的扰动来从不同角度衡量其鲁棒性。实验结果表明，即使是最鲁棒的模型在最具挑战性的扰动上也会出现 50.7% 的性能下降，分析了文本到 SQL 模型设计并提出了改进鲁棒性的见解。

Jan, 2023

针对同义词替换的文本转 SQL 模型健壮性研究

本文研究了文本到 SQL 模型对近义词替换的鲁棒性，并引入了一个名为 Spider-Syn 的基于现实问题重新矫正版的数据集，分为两类鲁棒性改善方法：一类依靠修改模型输入来利用附加同义词注释，另一类基于攻击性训练。我们证明这两类方法都显著优于没有防御的对应基线模型，且第一类方法更有效。

Jun, 2021

通过增加自然语言变化提升语义解析的泛化能力

使用数据增强来增强文本到 SQL 解析器对自然语言变化的鲁棒性，通过大型语言模型生成更真实和多样化的问题，从而在评估集合中实现显著的改进。

Feb, 2024

DocuT5: 带有表格文档的 Seq2seq SQL 生成

通过注入外部 `文档` 中的知识来提高领域概括能力，我们提出了 DocuT5，该方法捕获了外键的表结构上下文和表与列的领域知识。在 Spider 数据集上的实验结果表明，DocuT5 的两种知识类型均优于具有受限解码的最先进的 T5，而领域知识在 Spider-DK 和 Spider-SYN 数据集上的表现不逊于最先进的方法。

Nov, 2022

KaggleDBQA：文本 - SQL 解析器的真实性评估

本文探讨了实现自然语言查询现实关系数据库的挑战，提出了一个新的跨领域评估数据集 KaggleDBQA，并通过引入数据库文档等隐含领域知识的方法，将现有模型的准确性提高了 13.2%。

Jun, 2021

通用且鲁棒的文本到 SQL 解析

研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性，提出 TKK framework 用于学习 text-to-SQL parsing，该框架在多个测试数据集上表现出了显著的效果。

Oct, 2022

一种先进的文本到结构化查询语言模型的领域适应：经验教训与挑战

在 Text-to-SQL 任务中，通过领域适应性实现将 Text-to-SQL 系统应用于真实用例仍然是一个艰巨的挑战。通过对基础模型在 Spider 数据集之外的查询结构进行 fine-tuning，并采用基于规则的方法解决输入问题中的值的歧义性，我们展示了 T5 和 Picard 在何种情况下能够提供良好性能，分享了所学到的经验，并讨论了当前领域适应性的挑战。

Dec, 2023

辅助任务零样本文本到 SQL 学习

研究了神经序列到序列模型在自然生成的 SQL 任务中的泛化能力问题，并通过构建辅助任务并在 WikiSQL 数据集上的实验中证明其有效性。

Aug, 2019

MultiSpider：旨在基准测试多语言文本到 SQL 语义解析

本文介绍了 MultiSpider 数据集与 SAVe 框架，MultiSpider 数据集覆盖 7 种语言，且文中进一步提出了各种语言下，text-to-SQL 语义解析所面临的词汇和结构上的挑战，导致非英语言的解析准确率下降了 6.1％，而 SAVe 框架则通过对 Schema 进行增强从而有助于提升解析的性能。

Dec, 2022