通用且鲁棒的文本到 SQL 解析

EMNLPOct, 2022

Towards Generalizable and Robust Text-to-SQL Parsing

Chang Gao, Bowen Li, Wenxuan Zhang, Wai Lam, Binhua Li...

TL;DR研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性，提出 TKK framework 用于学习 text-to-SQL parsing，该框架在多个测试数据集上表现出了显著的效果。

Abstract

text-to-sql parsing tackles the problem of mapping natural language questions to executable SQL queries. In practice, text-to-SQL parsers often encounter various challenging scenarios, requiring them to be generalizable and robust. While most existing work addresses a particular

text-to-sql parsing generalization robustness tkk framework dataset

发现论文，激发创造

文本转 SQL 解析调查：概念，方法和未来方向

该研究综述了文本到结构化查询语言解析的深度学习方法，介绍了单轮和多轮对话的文本到 SQL 解析语料库，阐明了预训练语言模型和现有方法，探讨了面临的挑战和未来发展方向。

Aug, 2022

探索上下文依赖文本到 SQL 解析中的组合泛化

该文研究了文本到 SQL 的组成归纳泛化问题，通过提出新的标准数据集 CoSQL-CG 和 SParC-CG，提出了一种基于 p-align 的改进方法，并证明了其有效性。

May, 2023

通过增加自然语言变化提升语义解析的泛化能力

使用数据增强来增强文本到 SQL 解析器对自然语言变化的鲁棒性，通过大型语言模型生成更真实和多样化的问题，从而在评估集合中实现显著的改进。

Feb, 2024

文本转 SQL 中结构概括的研究

本文讨论了文本到 SQL 任务的结构概括问题。通过研究现有数据集和实验结果，我们观察到了（自然语言，SQL）模式过分拟合的实践限制。

Jan, 2023

解耦文本到 SQL 的 SQL 查询难度解析

通过解耦 SQL 查询的难度分析问题和模式，我们引入了一种创新的基于 Text-to-SQL 的框架，将多难度任务简化为单一难度挑战，大大降低了语言模型的解析压力，并在 Spider dev 上实现了新的最新的性能。

Dec, 2023

SPSQL: 基于逐步解析的文本到 SQL 生成框架

本文提出了一种基于管道的 Text2SQL 方法 SPSQL，将任务分解为表选择、列选择、SQL 生成和值填充四个子任务，采用不同的数据格式以提高模型精度，并使用命名实体识别模块和数据增强进行优化，通过实验得出在市场业务数据上的 SPSQL 方法比端到端方法和其他管道方法表现更好。

May, 2023

通过问题分解进行弱监督的文本到 SQL 解析

本研究提出了一种弱监督方法来训练文本到 SQL 解析器，利用 QDMR 结构自动合成 SQL 查询来代替 NL-SQL 注释，结果表明弱监督模型表现与有注释的 NL-SQL 数据训练模型相当，免除 SQL 注释。

Dec, 2021

面向知识密集型文本 - 结构化查询语义解析的公式化知识方法

本文使用新的中文基准数据集 KnowSQL，提出了使用公式化知识库作为领域知识支持的重新分组（ReGrouP）框架来解决文本到 SQL 的知识密集问题，并在 KnowSQL 数据集上实现了 28.2％的整体性能提升。

Jan, 2023

探索跨领域文本到 SQL 泛化的未被充分利用的限制

在研究神经网络将文本描述翻译成 SQL 查询方面，在零射跨域设置下取得了显著进展，但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK，用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中，我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本，并证明当样本需要这种领域知识时，预测准确率显著下降，即使该领域知识出现在训练集中，模型对相关训练样本的预测仍然正确。

Sep, 2021

KaggleDBQA：文本 - SQL 解析器的真实性评估

本文探讨了实现自然语言查询现实关系数据库的挑战，提出了一个新的跨领域评估数据集 KaggleDBQA，并通过引入数据库文档等隐含领域知识的方法，将现有模型的准确性提高了 13.2%。

Jun, 2021