使用 LLM 从候选项中选择正确的 SQL 查询

Jan, 2024

使用 LLM 从候选项中选择正确的 SQL 查询

Using LLM to select the right SQL Query from candidates

Zhenwen Li, Tao Xie

TL;DR文中介绍了一种自动生成数据库和使用 LLMs 预测期望执行结果的自动测试用例生成方法，并基于此方法提出了一种从候选列表中选择正确 SQL 查询的重新排序方法，实验证明应用该重新排序方法后一些最新模型的性能有 3.6% 的改进。

Abstract

text-to-sql models can generate a list of candidate SQL queries, and the best query is often in the candidate list, but not at the top of the list. An effective re-rank method can select the right SQL query from

text-to-sql models re-rank method automatic test case generation llms database generation

发现论文，激发创造

Bertrand-DR: 基于判别式重排的文本到 SQL 改进方法

本文提出一种判别式 re-ranker 方法，用于在 generative text-to-SQL 模型的预测输出中提取最佳 SQL 查询，从而提高表现。作为 schema agnostic BERT 细调分类器构建 re-ranker。在分析不同查询难度级别的 text-to-SQL 和 re-ranker 模型的相对优势的基础上，建议如何结合这两种模型以获得最佳表现，我们通过将其应用于两种最先进的 text-to-SQL 模型，证明了 re-ranker 的有效性，在编写本文时在 Spider 排行榜上排名前四。

Feb, 2020

基于大型语言模型的文本转 SQL：基准评估

本文对大型语言模型（LLMs）在 Text-to-SQL 任务中的应用进行了研究，提出了一种新的集成解决方案 DAIL-SQL，并通过实验证明了其在 Spider 排行榜上取得了 86.6% 的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源 LLMs 在 Text-to-SQL 中的潜力，以及任务特定的监督微调的优势和劣势，希望能够对 LLMs 在 Text-to-SQL 领域提供更深入的了解，并激发进一步的研究和广泛应用。

Aug, 2023

下一代数据库接口：LLM 基于文本到 SQL 的调查

根据自然语言问题（文本到 SQL）生成准确的 SQL 是一个长期存在的问题，传统的文本到 SQL 系统使用人工工程和深度神经网络，而最近的大型语言模型（LLMs）已经展示出在自然语言理解方面的显著能力，因此，将 LLM-based 实现整合到文本到 SQL 研究中可以带来独特的机遇、挑战和解决方案。

Jun, 2024

基于大型语言模型的自然语言生成从逻辑形式的重新排序研究

通过提出一种新颖的生成和重新排序的方法，本研究强调大型语言模型在自然语言生成中的出色能力，并解决了从逻辑形式（LFs）生成自然语言时遇到的一些问题，该方法能够提高生成输出的语义一致性和流畅性，经过多项实验验证了其有效性。

Sep, 2023

文本转 SQL 系统的 N-Best 假设重新排序

该研究使用预训练语言模型和约束解码技术，通过重新排序和重新解析的方式来改进 Text-to-SQL 任务的查询准确性，最终在任务中达到了最高准确率，并提出了查询计划生成方案的启发式模式。

Oct, 2022

知识到 SQL：利用数据专家 LLM 提升 SQL 生成

利用知识生成 SQL 的框架对于 text-to-SQL 任务中缺乏知识的查询可以提供准确的 SQL 生成操作，并通过强化学习和数据库反馈进一步提高模型性能。

Feb, 2024

基于 LLM 的上下文感知查询重写文本排名器

采用上下文感知查询重写的方法，通过使用大语言模型进行查询理解并对排序器进行微调，能够显著提高查询重写对排名任务的性能。

Aug, 2023

SQL-PaLM: 文本到 SQL 的改良大型语言模型自适应

本研究提出了一种基于大型语言模型的 Text-to-SQL 模型 SQL-PaLM，该模型在几种不同的任务测试中都取得了最优结果，并展示了其应用于现实场景的鲁棒性和智能能力。

May, 2023

基于检索增强的 GPT-3.5 的文本到 SQL 框架，具备样本感知提示和动态修订链

本文提出一种基于大型语言模型的 Text-to-SQL 框架 —— 检索增强提示法，包括样本感知提示和动态修订链，通过引入检索来生成针对自然语言问题的 SQL 查询。

Jul, 2023

大型语言模型在文本转 SQL 合成中的有效性分析

该研究通过使用大型语言模型（LLMs）来进行文本到 SQL 程序合成的各种方法以及相关的结果和见解，通过使用流行的 Text-to-SQL 数据集（spider）输入自然语言问题和数据库模式并生成正确的 SQL SELECT 查询。通过细调 WizardLM 的 WizardCoder-15B 模型和 fine-tuning gpt-3.5-turbo-16k（Few-shot）+ gpt-4-turbo（Zero-shot error correction）的方式，查询的执行准确率达到了较高的 82.1%。大部分错误查询可以归为七个不同的类别，这揭示了 LLM 程序合成的瑕疵以及可改进的方向。

Jan, 2024