SeqGenSQL -- 用于结构化查询语言的稳健序列生成模型

Nov, 2020

SeqGenSQL -- 用于结构化查询语言的稳健序列生成模型

SeqGenSQL -- A Robust Sequence Generation Model for Structured Query Language

Ning Li, Bethany Keller, Mark Butler, Daniel Cer

TL;DR利用 T5 模型进行文本转 SQL，结合问题增值和自动生成的银标识训练数据，实现了较高的 SQL 执行精度，并接近基于逻辑形式的最新的具有 SOTA 性能系统。

Abstract

We explore using t5 (Raffel et al. (2019)) to directly translate natural language questions into sql statements. General purpose natural language that interfaces to information stored within databases requires fl

t5 sql text-to-sql weakly supervised question augmentation

发现论文，激发创造

使用强化学习从自然语言生成结构化查询的 Seq2SQL 模型

提出一种基于深度神经网络 Seq2SQL 的 SQL 查询翻译模型，利用强化学习策略优化模型，并结合 WikiSQL 数据集进行模型训练，性能比注意力机制模型更好，精度从 35.9% 提高至 59.4%。

Aug, 2017

使用 Graph-to-Sequence 模型进行 SQL 到文本生成

本文提出了一种将 SQL 查询表示为有向图的策略，并采用图到序列模型将全局结构信息编码成节点嵌入的方法，从而有效地学习 SQL 查询模式和其解释之间的相关性，实验结果表明，我们的模型在 WikiSQL 数据集和 Stackoverflow 数据集上表现显著优于 Seq2Seq 和 Tree2Seq 基线模型，达到了最先进的性能水平。

Sep, 2018

T5-SR: 一种用于语义解析的统一 Seq-to-Seq 解码策略

该篇论文分析了语义解析 (seq2seq) 面临的挑战，如预测语义信息和处理自然语言查询和 SQL 之间的语义连贯性，并提出一种名为 SR 的解码策略，包括一种新的中间表示 (SSQL) 和用于解决这些难题的得分再评估的 reranking 方法。实验证明，该方法在 Spider 数据集上取得了最新的最先进的结果 (T5-SR-3b)。

Jun, 2023

DocuT5: 带有表格文档的 Seq2seq SQL 生成

通过注入外部 `文档` 中的知识来提高领域概括能力，我们提出了 DocuT5，该方法捕获了外键的表结构上下文和表与列的领域知识。在 Spider 数据集上的实验结果表明，DocuT5 的两种知识类型均优于具有受限解码的最先进的 T5，而领域知识在 Spider-DK 和 Spider-SYN 数据集上的表现不逊于最先进的方法。

Nov, 2022

SQLNet：无强化学习的自然语言结构化查询生成

本文提出了一种新的方法，即 SQLNet，通过避免不必要的序列结构来基本解决序列化时的顺序问题，并结合依赖图、序列－集合模型和列注意力机制，可以在 WikiSQL 任务中比之前的方法提高 9% 到 13% 的效果。

Nov, 2017

基于语法的神经网络文本到 SQL 生成

本文提出了一种处理 neural text-to-SQL models 中编写语法的复杂性的技术，从而生成 schema-dependent grammar，对 ATIS 和 Spider 两个挑战性的 text-to-SQL 数据集进行分析，显示可以减少 14-18% 的相对误差。

May, 2019

语义解析：基于语法和表格的 SQL 生成

利用生成模型将自然语言问题转换成 SQL 查询，并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验，将执行准确率从 69.0％提高到 74.4％。

Apr, 2018

带执行引导的 Text-to-SQL 生成的鲁棒性

该研究探讨了神经话语解析的问题，引入新的执行指南机制来利用 SQL 的语义，证明其普遍提高了基于自回归生成模型的语义解析模型的性能。

Jul, 2018

RH-SQL：精确模式和难度提示的文本转 SQL

该研究论文介绍了一种基于精炼模式和难度提示的文本到 SQL 的方法，通过过滤低相关性的模式信息和使用语言模型通过难度提示来减少存储和训练成本，同时保持性能，实现了在大规模语言模型上 82.6% 的出色执行准确度，证明了我们方法在实际应用中的有效性和更大的适用性。

Jun, 2024

基于架构感知去噪的端到端文本到 SQL 生成

该研究提出一种基于 transformer-based seq-to-seq 模型的简单而有效的方法，通过 Schema aware Denoising（SeaD）对模型进行训练以更好地对结构化数据进行建模，并提出了一种 clause-sensitive execution guided (EG) 解码策略来克服生成模型的 EG 解码的局限性，实现了在 WikiSQL 基准测试中的最新性能。

May, 2021