基于语法的神经网络文本到 SQL 生成

May, 2019

基于语法的神经网络文本到 SQL 生成

Grammar-based Neural Text-to-SQL Generation

Kevin Lin, Ben Bogin, Mark Neumann, Jonathan Berant, Matt Gardner

TL;DR本文提出了一种处理 neural text-to-SQL models 中编写语法的复杂性的技术，从而生成 schema-dependent grammar，对 ATIS 和 Spider 两个挑战性的 text-to-SQL 数据集进行分析，显示可以减少 14-18% 的相对误差。

Abstract

The sequence-to-sequence paradigm employed by neural text-to-sql models typically performs token-level decoding and does not consider generating SQL hierarchically from a grammar. Grammar-based decoding has shown significant improvements for other →

neural text-to-sql models hierarchical grammar schema-dependent grammar semantic parsing text-to-sql datasets

发现论文，激发创造

带执行引导的 Text-to-SQL 生成的鲁棒性

该研究探讨了神经话语解析的问题，引入新的执行指南机制来利用 SQL 的语义，证明其普遍提高了基于自回归生成模型的语义解析模型的性能。

Jul, 2018

语义解析：基于语法和表格的 SQL 生成

利用生成模型将自然语言问题转换成 SQL 查询，并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验，将执行准确率从 69.0％提高到 74.4％。

Apr, 2018

神经文本生成的显式句法指导

我们提出了一种基于句法树的语法引导生成模式，通过解码过程的两个部分:（1）对给定源句子中词汇化的句法上下文中的每个成分预测填充文本；（2）映射和扩展每个成分以构建下一级语法上下文以生成自然语言文本，并在重述生成和机器翻译上进行了实验。与自回归基线相比，该方法在有效性和可解释性方面更加出色。

Jun, 2023

使用 Graph-to-Sequence 模型进行 SQL 到文本生成

本文提出了一种将 SQL 查询表示为有向图的策略，并采用图到序列模型将全局结构信息编码成节点嵌入的方法，从而有效地学习 SQL 查询模式和其解释之间的相关性，实验结果表明，我们的模型在 WikiSQL 数据集和 Stackoverflow 数据集上表现显著优于 Seq2Seq 和 Tree2Seq 基线模型，达到了最先进的性能水平。

Sep, 2018

S$^2$SQL：在文本到 SQL 解析器中注入语法以实现问题 - 架构交互图编码器

本文提出了一种注入语法到问 - Schema 图编码器中用于 Text-to-SQL 解析器的方法 ——S$^2$SQL，它有效地利用了问题中的句法依赖信息来提高性能，并采用解耦约束来诱导多样化的关系边缘嵌入，实验结果在 Spider 和鲁棒性设置 Spider-Syn 上均表现优于所有现有方法，使性能在 Spider 排行榜上名列前茅。

Mar, 2022

通过动态架构编码用自然语言纠正语义解析

提出了一种利用自然语言反馈进行语义解析更正的方法，通过将任务的语义和语法困难分离，只需一轮自然语言反馈即可将文本到 SQL 解析器的准确性提高 26％；同时表明 T5-base 模型能在无需训练的情况下，纠正 T5-large 模型的错误。

May, 2023

使用图神经网络表示模式结构，用于文本到 SQL 解析

该研究关注语言解析到 SQL 的过程，并提出了一种使用图神经网络对数据库模式进行编码的方法，在 Spider 数据集上得到了较高的解析准确率。

May, 2019

通过基于子句级并行解码和对齐损失以实现更快更好的基于语法的文本到 SQL 解析

本文介绍了一种提高语法解析器的性能的方法，通过采用基于从句的并行解码和对齐丢失来增强两个高性能的语法解析器 RATSQL 和 LGESQL，在准确性和解码速度方面都取得了一致的提升。

Apr, 2022

SPSQL: 基于逐步解析的文本到 SQL 生成框架

本文提出了一种基于管道的 Text2SQL 方法 SPSQL，将任务分解为表选择、列选择、SQL 生成和值填充四个子任务，采用不同的数据格式以提高模型精度，并使用命名实体识别模块和数据增强进行优化，通过实验得出在市场业务数据上的 SPSQL 方法比端到端方法和其他管道方法表现更好。

May, 2023

T5-SR: 一种用于语义解析的统一 Seq-to-Seq 解码策略

该篇论文分析了语义解析 (seq2seq) 面临的挑战，如预测语义信息和处理自然语言查询和 SQL 之间的语义连贯性，并提出一种名为 SR 的解码策略，包括一种新的中间表示 (SSQL) 和用于解决这些难题的得分再评估的 reranking 方法。实验证明，该方法在 Spider 数据集上取得了最新的最先进的结果 (T5-SR-3b)。

Jun, 2023