解耦文本到 SQL 的 SQL 查询难度解析

Dec, 2023

解耦文本到 SQL 的 SQL 查询难度解析

Decoupling SQL Query Hardness Parsing for Text-to-SQL

Jiawen Yi, Guo Chen

TL;DR通过解耦 SQL 查询的难度分析问题和模式，我们引入了一种创新的基于 Text-to-SQL 的框架，将多难度任务简化为单一难度挑战，大大降低了语言模型的解析压力，并在 Spider dev 上实现了新的最新的性能。

Abstract

The fundamental goal of the text-to-sql task is to translate natural language question into sql query. Current research primarily emphasizes the information coupling between natural language questions and schemas

text-to-sql task sql query correlation decoupling framework

发现论文，激发创造

文本转 SQL 解析调查：概念，方法和未来方向

该研究综述了文本到结构化查询语言解析的深度学习方法，介绍了单轮和多轮对话的文本到 SQL 解析语料库，阐明了预训练语言模型和现有方法，探讨了面临的挑战和未来发展方向。

Aug, 2022

通用且鲁棒的文本到 SQL 解析

研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性，提出 TKK framework 用于学习 text-to-SQL parsing，该框架在多个测试数据集上表现出了显著的效果。

Oct, 2022

S$^2$SQL：在文本到 SQL 解析器中注入语法以实现问题 - 架构交互图编码器

本文提出了一种注入语法到问 - Schema 图编码器中用于 Text-to-SQL 解析器的方法 ——S$^2$SQL，它有效地利用了问题中的句法依赖信息来提高性能，并采用解耦约束来诱导多样化的关系边缘嵌入，实验结果在 Spider 和鲁棒性设置 Spider-Syn 上均表现优于所有现有方法，使性能在 Spider 排行榜上名列前茅。

Mar, 2022

文本到 SQL 解析中的问题和 SQL 的语义分解

利用模块化查询计划语言（QPL）将 SQL 查询分解为简单和规则的子查询，通过训练文本到 QPL 解析器，我们获得了对数据库模式敏感的数据检索问题分解器以及更易理解的语义解析器的输出。

Oct, 2023

多轮文本到 SQL 的分离对话建模和语义解析

本研究提出了一种新的分离式多轮对话文本转 SQL 框架，使用话语重写模型和单轮 Text-to-SQL 解释器来解决对多轮对话历史建模和数据稀疏性问题，在无标注的情况下表现优异。

Jun, 2021

SPSQL: 基于逐步解析的文本到 SQL 生成框架

本文提出了一种基于管道的 Text2SQL 方法 SPSQL，将任务分解为表选择、列选择、SQL 生成和值填充四个子任务，采用不同的数据格式以提高模型精度，并使用命名实体识别模块和数据增强进行优化，通过实验得出在市场业务数据上的 SPSQL 方法比端到端方法和其他管道方法表现更好。

May, 2023

通过问题分解进行弱监督的文本到 SQL 解析

本研究提出了一种弱监督方法来训练文本到 SQL 解析器，利用 QDMR 结构自动合成 SQL 查询来代替 NL-SQL 注释，结果表明弱监督模型表现与有注释的 NL-SQL 数据训练模型相当，免除 SQL 注释。

Dec, 2021

DIN-SQL：基于上下文分解的自我修正文本到 SQL 学习

研究了如何将复杂的文本到 SQL 任务分解为较小的子任务，从而显著提高大型语言模型（LLMs）在推理过程中的性能，证明了将 SQL 查询分解为子问题并将这些子问题的解决方案提供给 LLMs 可以显著提高性能。在三个 LLMs 上的实验表明，此方法始终将性能提高约 10％，推动 LLMs 的准确性接近最先进水平，甚至超过用于持有 Spider 数据集的大型精调模型。

Apr, 2023

处理模糊和无法回答的问题：文本到 SQL

本文旨在研究文本到 SQL 的自然语言处理问题中的有歧义问题和无法回答问题，并总结为 6 个特征类别。其次，提出了一个简单而高效的计数事实例子生成方法，用于自动生成有歧义和无法回答的文本到 SQL 实例。进一步提出了一个基于弱监督模型 DTE (Detecting-Then-Explaining) ，用于错误检测、定位和解释。实验结果表明，该模型在真实世界的例子和生成的例子上比各种基线模型都要好。

Dec, 2022

通过增加自然语言变化提升语义解析的泛化能力

使用数据增强来增强文本到 SQL 解析器对自然语言变化的鲁棒性，通过大型语言模型生成更真实和多样化的问题，从而在评估集合中实现显著的改进。

Feb, 2024