在歧义下进行文本到 SQL 生成的基准测试和改进

EMNLPOct, 2023

在歧义下进行文本到 SQL 生成的基准测试和改进

Benchmarking and Improving Text-to-SQL Generation under Ambiguity

Adithya Bhaskar, Tushar Tomar, Ashutosh Sathe, Sunita Sarawagi

TL;DR通过 AmbiQT 基准测试，我们提出了一种解决自然语言查询中的 SQL 歧义性问题的新的解码算法 LogicalBeam，它通过计划模板生成和受限填充的方式在 SQL 语义空间中导航，并在排名前 k 的结果中生成所有候选 SQL，相比于现有模型，LogicalBeam 在生成 SQL 方面表现效果提升了最多 2.5 倍，并且在 SPIDER 和 Kaggle DBQA 上的 Top-5 精确度和执行匹配精确度也有所改善。

Abstract

Research in text-to-sql conversion has been largely benchmarked against datasets where each text query corresponds to one correct SQL. However, natural language queries over real-life databases frequently involve significant →

text-to-sql conversion benchmark ambiguity decoding algorithms logicalbeam

发现论文，激发创造

带执行引导的 Text-to-SQL 生成的鲁棒性

该研究探讨了神经话语解析的问题，引入新的执行指南机制来利用 SQL 的语义，证明其普遍提高了基于自回归生成模型的语义解析模型的性能。

Jul, 2018

基于语法的神经网络文本到 SQL 生成

本文提出了一种处理 neural text-to-SQL models 中编写语法的复杂性的技术，从而生成 schema-dependent grammar，对 ATIS 和 Spider 两个挑战性的 text-to-SQL 数据集进行分析，显示可以减少 14-18% 的相对误差。

May, 2019

基于 AST 排序和架构修剪的改进检索增强型文本到 SQL 模型

通过动态检索输入数据库信息和使用抽象语法树选择少量示例以进行上下文学习，本文提出一种从大型语言模型的角度着眼于文本到 SQL 语义解析的方法，并研究并行语义解析器在生成预期 SQL 查询的近似版本方面的利用程度。作者利用不到 500M 参数的极其高效的逼近模型进行了实验，应用于语义解析的单语和跨语言基准测试中，取得了比现有基准的改进效果，并对未来工作方向提出了有趣的见解。

Jul, 2024

基于大型语言模型的文本转 SQL：基准评估

本文对大型语言模型（LLMs）在 Text-to-SQL 任务中的应用进行了研究，提出了一种新的集成解决方案 DAIL-SQL，并通过实验证明了其在 Spider 排行榜上取得了 86.6% 的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源 LLMs 在 Text-to-SQL 中的潜力，以及任务特定的监督微调的优势和劣势，希望能够对 LLMs 在 Text-to-SQL 领域提供更深入的了解，并激发进一步的研究和广泛应用。

Aug, 2023

Bertrand-DR: 基于判别式重排的文本到 SQL 改进方法

本文提出一种判别式 re-ranker 方法，用于在 generative text-to-SQL 模型的预测输出中提取最佳 SQL 查询，从而提高表现。作为 schema agnostic BERT 细调分类器构建 re-ranker。在分析不同查询难度级别的 text-to-SQL 和 re-ranker 模型的相对优势的基础上，建议如何结合这两种模型以获得最佳表现，我们通过将其应用于两种最先进的 text-to-SQL 模型，证明了 re-ranker 的有效性，在编写本文时在 Spider 排行榜上排名前四。

Feb, 2020

面向复杂文本到 SQL 的模式感知多任务学习

传统的文本到 SQL 解析器在合成涉及多个表格或列的复杂 SQL 查询方面表现不佳，为了解决这个问题，我们提出了一种面向模式的多任务学习框架（名为 MTSQL）来处理复杂的 SQL 查询。通过设计一个模式链接鉴别器模块来区分有效的问题 - 模式关联，明确指示编码器通过特殊的链接关系来增强对齐质量。在解码器方面，我们定义了 6 种关系类型来描述表格和列之间的连接，并引入以运算符为中心的三元抽取器来识别那些与预定义关系相关的模式项。此外，我们通过预测的三元组建立了一组语法约束规则集，用于在 SQL 生成过程中过滤适当的 SQL 运算符和模式项。在跨领域的具有挑战性的文本到 SQL 基准测试 Spider 上，实验结果表明 MTSQL 比基线方法更有效，特别是在极端困难的场景中。此外，进一步的分析验证了我们的方法在处理复杂 SQL 查询方面的有希望的改进。

Mar, 2024

下一代数据库接口：LLM 基于文本到 SQL 的调查

根据自然语言问题（文本到 SQL）生成准确的 SQL 是一个长期存在的问题，传统的文本到 SQL 系统使用人工工程和深度神经网络，而最近的大型语言模型（LLMs）已经展示出在自然语言理解方面的显著能力，因此，将 LLM-based 实现整合到文本到 SQL 研究中可以带来独特的机遇、挑战和解决方案。

Jun, 2024

处理模糊和无法回答的问题：文本到 SQL

本文旨在研究文本到 SQL 的自然语言处理问题中的有歧义问题和无法回答问题，并总结为 6 个特征类别。其次，提出了一个简单而高效的计数事实例子生成方法，用于自动生成有歧义和无法回答的文本到 SQL 实例。进一步提出了一个基于弱监督模型 DTE (Detecting-Then-Explaining) ，用于错误检测、定位和解释。实验结果表明，该模型在真实世界的例子和生成的例子上比各种基线模型都要好。

Dec, 2022

TrustSQL：具备多样性无法回答问题的文本到 SQL 模型可靠性基准测试

近期对于大型语言模型的研究取得了显著进展，特别是在将自然语言问题翻译为 SQL 查询方面的准确性能大幅提升。然而，对于实际部署中遇到的各种类型问题，包括无法回答的问题，这些文本到 SQL 模型的可靠性还知之甚少。为了探讨这个方面，我们提出了 TrustSQL，这是一个新的基准系统，旨在评估文本到 SQL 模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一：1）SQL 预测；2）不进行预测，无论是由于生成的 SQL 可能存在问题，还是面对无法回答的问题。为了对模型进行评估，我们探索了特定于该任务的各种建模方法，包括：1）为可回答性检测、SQL 生成和错误检测优化独立的模型，然后将它们集成到一个单一的流程中；2）开发一个统一的方法，优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分，表明解决这一挑战涉及到许多不同的研究领域，并为模型发展开辟了新的途径。然而，尽管有这么多的方法，但没有一种能够超越纯基准的可靠性性能，即放弃回答所有问题。

Mar, 2024

文本转 SQL 系统的 N-Best 假设重新排序

该研究使用预训练语言模型和约束解码技术，通过重新排序和重新解析的方式来改进 Text-to-SQL 任务的查询准确性，最终在任务中达到了最高准确率，并提出了查询计划生成方案的启发式模式。

Oct, 2022