文本转 SQL 系统的 N-Best 假设重新排序

Oct, 2022

文本转 SQL 系统的 N-Best 假设重新排序

N-Best Hypotheses Reranking for Text-To-SQL Systems

Lu Zeng, Sree Hari Krishnan Parthasarathi, Dilek Hakkani-Tur

TL;DR该研究使用预训练语言模型和约束解码技术，通过重新排序和重新解析的方式来改进 Text-to-SQL 任务的查询准确性，最终在任务中达到了最高准确率，并提出了查询计划生成方案的启发式模式。

Abstract

text-to-sql task maps natural language utterances to structured queries that can be issued to a database. State-of-the-art (SOTA) systems rely on finetuning large, pre-trained language models in conjunction with

text-to-sql pre-trained language models oracle hypothesis query plan reranking

发现论文，激发创造

面向会话的文本到 SQL 转换：现状和未来挑战的探索

通过多任务联合训练和模式重排应用于 text-to-SQL 任务中，可以显著提高模型的表现，进一步结合查询计划模型和模式链接算法后，T5-3B 的精确匹配和执行匹配的准确度均超过 SOTA 基线。

Feb, 2023

基于大型语言模型的文本到 SQL、文本到 Python 和文本到函数的重新增强 —— 在交通领域中的真实应用

我们提出了一种更适应性更强的提示方法，通过查询重写和 SQL 增强来提高 Text-to-SQL 模型的性能，并在商业数据集上实验证明了显著的性能改善。

Oct, 2023

Dubo-SQL: 多元检索增强生成与微调的文本到 SQL

通过低成本微调、多样的检索增强生成方法、新的输入和输出格式等手段，本文介绍了 Dubo-SQL v1 和 v2 这两种新方法，它们在 BIRD-SQL 基准测试中取得了较高的执行准确率。Dubo-SQL v1 使用了低成本的 GPT-3.5 Turbo 并在超过其他使用 GPT-4 的模型的性能的同时，也超过了其他使用 GPT-3.5 的模型的性能超过了 20%。Dubo-SQL v2 使用 GPT-4 Turbo 和检索增强生成技术，使执行准确率更高。

Apr, 2024

Bertrand-DR: 基于判别式重排的文本到 SQL 改进方法

本文提出一种判别式 re-ranker 方法，用于在 generative text-to-SQL 模型的预测输出中提取最佳 SQL 查询，从而提高表现。作为 schema agnostic BERT 细调分类器构建 re-ranker。在分析不同查询难度级别的 text-to-SQL 和 re-ranker 模型的相对优势的基础上，建议如何结合这两种模型以获得最佳表现，我们通过将其应用于两种最先进的 text-to-SQL 模型，证明了 re-ranker 的有效性，在编写本文时在 Spider 排行榜上排名前四。

Feb, 2020

使用 LLM 从候选项中选择正确的 SQL 查询

文中介绍了一种自动生成数据库和使用 LLMs 预测期望执行结果的自动测试用例生成方法，并基于此方法提出了一种从候选列表中选择正确 SQL 查询的重新排序方法，实验证明应用该重新排序方法后一些最新模型的性能有 3.6% 的改进。

Jan, 2024

CodeS：构建面向文本到 SQL 的开源语言模型

本研究介绍一种名为 CodeS 的开源语言模型，旨在解决 Text-to-SQL 任务中现有限制，并通过增量预训练、模式构建和双向数据增强等方法提升了 CodeS 在 SQL 生成能力上的表现，并在多个数据集上取得了新的最先进准确性和鲁棒性。

Feb, 2024

T5-SR: 一种用于语义解析的统一 Seq-to-Seq 解码策略

该篇论文分析了语义解析 (seq2seq) 面临的挑战，如预测语义信息和处理自然语言查询和 SQL 之间的语义连贯性，并提出一种名为 SR 的解码策略，包括一种新的中间表示 (SSQL) 和用于解决这些难题的得分再评估的 reranking 方法。实验证明，该方法在 Spider 数据集上取得了最新的最先进的结果 (T5-SR-3b)。

Jun, 2023

在歧义下进行文本到 SQL 生成的基准测试和改进

通过 AmbiQT 基准测试，我们提出了一种解决自然语言查询中的 SQL 歧义性问题的新的解码算法 LogicalBeam，它通过计划模板生成和受限填充的方式在 SQL 语义空间中导航，并在排名前 k 的结果中生成所有候选 SQL，相比于现有模型，LogicalBeam 在生成 SQL 方面表现效果提升了最多 2.5 倍，并且在 SPIDER 和 Kaggle DBQA 上的 Top-5 精确度和执行匹配精确度也有所改善。

Oct, 2023

具备表格感知的单词语境综合 WikiSQL 探索

SQLova 是第一个在 WikiSQL 数据集中实现人类性能的自然语言到 SQL 模型，利用了 BERT 通过有效的表格语境方法，结合了多种流行的 NL2SQL 方法，在逻辑形式和执行准确度方面分别优于先前的最新技术水平 8.2％和 2.5％。我们特别注意到，在使用这样的大型预训练模型时，BERT 与序列到序列解码器会导致性能不佳，这表明设计的重要性。我们还对数据集和我们的模型进行了全面的分析，这可能有助于设计未来的 NL2SQL 数据集和模型。我们特别展示了我们模型的表现已经接近 WikiSQL 的上限，在其中我们观察到大部分评估错误是由于错误的注释，而我们的模型在执行准确度方面已经超过人类表现 1.3％。

Feb, 2019

自动评论驾驶的文本解释

本文介绍了一种基于深度学习的车辆控制器预测的自然语言解释模型，并通过新的模型改进了模型的性能，特别是在文本解释方面，达到了比基准模型更高的性能。

Apr, 2023