E-SQL: 通过问题增强实现直接架构链接的文本到SQL转换

Sep, 2024

E-SQL: 通过问题增强实现直接架构链接的文本到SQL转换

E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL

Hasan Alp Caferoğlu, Özgür Ulusoy

TL;DR本研究旨在解决当前文本到SQL转换中的复杂数据库架构处理和用户查询歧义问题。提出的E-SQL新模型通过直接架构链接和候选谓词增强来改进自然语言查询，与数据库结构更好地结合。实验结果表明，E-SQL在复杂查询上表现出色，测试集的执行准确率达到66.29%。

Abstract

Translating Natural Language Queries into Structured Query Language (Text-to-SQL or NLQ-to-SQL) is a critical task extensively studied by both the Natural Language Processing and database communities, aimed at pr

发现论文，激发创造

SeqGenSQL -- 用于结构化查询语言的稳健序列生成模型

利用T5模型进行文本转SQL，结合问题增值和自动生成的银标识训练数据，实现了较高的SQL执行精度，并接近基于逻辑形式的最新的具有SOTA性能系统。

Nov, 2020

使用模式依赖性学习改进文本到SQL的转换

本篇论文提出了一种基于Schema Dependency的多任务Text-to-SQL模型（SDSQL），用于有效捕获问题和架构之间的交互，从而减少数据库执行所拖延的推理时间，具有更好的可扩展性和更高的性能。

Mar, 2021

文本到SQL的最近进展：我们已经掌握了什么，以及我们期望的

该文回顾了Text-to-SQL在数据集、方法和评估方面的最新进展，总结了该领域所面临的挑战，并讨论了未来的研究方向，对于现有工作的快速访问和激励未来研究具有重要的指导意义。

Aug, 2022

UNITE: 一个用于文本到SQL评估的统一基准

本论文介绍了一个名为 UNITE 的统一文本到SQL评估基准，其中包含来自 12 个以上领域的自然语言问题，来自 3.9K 多个 SQL 模式的查询以及 29K 个数据库，并比较了六种最新的 SOTA 文本到SQL解析器在这个基准上的表现，揭示了这些最先进的模型在组合泛化和鲁棒性问题上仍然存在困难。

May, 2023

CodeS：构建面向文本到SQL的开源语言模型

本研究介绍一种名为CodeS的开源语言模型，旨在解决Text-to-SQL任务中现有限制，并通过增量预训练、模式构建和双向数据增强等方法提升了CodeS在SQL生成能力上的表现，并在多个数据集上取得了新的最先进准确性和鲁棒性。

Feb, 2024

PET-SQL：基于Prompt增强的两阶段的文本到SQL框架与交叉一致性

该论文提出了一个两阶段的框架以增强当前基于大语言模型的自然语言到SQL系统的性能，首先引入了一种称为参考增强表示的新型提示表示方法，然后通过few-shot示范检索问题-SQL对来生成初步SQL，对初步SQL中的实体进行解析以进行模式链接，在第二阶段中，简化了提示的模式信息，最终使用跨不同语言模型的交叉一致性作为后细化模块，取得了在Spider基准上的新的最先进结果，执行准确率达到了87.6%。

Mar, 2024

下一代数据库接口：LLM基于文本到SQL的调查

根据自然语言问题（文本到SQL）生成准确的SQL是一个长期存在的问题，传统的文本到SQL系统使用人工工程和深度神经网络，而最近的大型语言模型（LLMs）已经展示出在自然语言理解方面的显著能力，因此，将LLM-based实现整合到文本到SQL研究中可以带来独特的机遇、挑战和解决方案。

Jun, 2024

Lucy：思考和推理以解决文本到SQL

大型语言模型在自然语言数据库查询方面取得了显著的进展，但在大型企业数据库中的性能下降。我们分析了这些环境中LLMs面临的挑战，并提出了一种新的解决方案，将LLMs在理解问题方面的能力与自动推理技术相结合以处理复杂的数据库约束。基于这些思想，我们开发了一个新的框架，在复杂基准测试中的零-shot文本到SQL方面胜过了现有技术。

Jul, 2024

模式链接的终结？在良好推理语言模型时代的文本到SQL

本研究探讨了在文本到SQL管道中，模式链接的重要性及其局限性，特别是在使用最新的大型语言模型时。研究表明，现代模型能够在生成过程中识别相关的模式元素，无需显式的模式链接，从而提高查询生成的准确性。该方法在BIRD基准测试中实现了71.83%的执行准确率，取得了当时的第一名。

Aug, 2024

模式链接的终结？在合理推理语言模型时代的文本到SQL

本研究探讨了当前文本到SQL流程中的模式链接问题，发现新一代大型语言模型能够在生成过程中有效使用相关模式元素，即使有大量无关元素存在。因此，当模式适应模型的上下文窗口时，我们的流程完全放弃模式链接，以减少所需模式元素过滤带来的问题，并通过增强、选择和校正等技术提升生成准确性，最终在BIRD基准测试中取得71.83%的准确率。

Aug, 2024