基于语法的神经网络文本到 SQL 生成
该研究探讨了神经话语解析的问题,引入新的执行指南机制来利用 SQL 的语义,证明其普遍提高了基于自回归生成模型的语义解析模型的性能。
Jul, 2018
利用生成模型将自然语言问题转换成 SQL 查询,并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验,将执行准确率从 69.0%提高到 74.4%。
Apr, 2018
我们提出了一种基于句法树的语法引导生成模式,通过解码过程的两个部分:(1)对给定源句子中词汇化的句法上下文中的每个成分预测填充文本;(2)映射和扩展每个成分以构建下一级语法上下文以生成自然语言文本,并在重述生成和机器翻译上进行了实验。与自回归基线相比,该方法在有效性和可解释性方面更加出色。
Jun, 2023
本文提出了一种将 SQL 查询表示为有向图的策略,并采用图到序列模型将全局结构信息编码成节点嵌入的方法,从而有效地学习 SQL 查询模式和其解释之间的相关性,实验结果表明,我们的模型在 WikiSQL 数据集和 Stackoverflow 数据集上表现显著优于 Seq2Seq 和 Tree2Seq 基线模型,达到了最先进的性能水平。
Sep, 2018
本文提出了一种注入语法到问 - Schema 图编码器中用于 Text-to-SQL 解析器的方法 ——S$^2$SQL,它有效地利用了问题中的句法依赖信息来提高性能,并采用解耦约束来诱导多样化的关系边缘嵌入,实验结果在 Spider 和鲁棒性设置 Spider-Syn 上均表现优于所有现有方法,使性能在 Spider 排行榜上名列前茅。
Mar, 2022
提出了一种利用自然语言反馈进行语义解析更正的方法,通过将任务的语义和语法困难分离,只需一轮自然语言反馈即可将文本到 SQL 解析器的准确性提高 26%;同时表明 T5-base 模型能在无需训练的情况下,纠正 T5-large 模型的错误。
May, 2023
该研究关注语言解析到 SQL 的过程,并提出了一种使用图神经网络对数据库模式进行编码的方法,在 Spider 数据集上得到了较高的解析准确率。
May, 2019
本文介绍了一种提高语法解析器的性能的方法,通过采用基于从句的并行解码和对齐丢失来增强两个高性能的语法解析器 RATSQL 和 LGESQL,在准确性和解码速度方面都取得了一致的提升。
Apr, 2022
本文提出了一种基于管道的 Text2SQL 方法 SPSQL,将任务分解为表选择、列选择、SQL 生成和值填充四个子任务,采用不同的数据格式以提高模型精度,并使用命名实体识别模块和数据增强进行优化,通过实验得出在市场业务数据上的 SPSQL 方法比端到端方法和其他管道方法表现更好。
May, 2023
该篇论文分析了语义解析 (seq2seq) 面临的挑战,如预测语义信息和处理自然语言查询和 SQL 之间的语义连贯性,并提出一种名为 SR 的解码策略,包括一种新的中间表示 (SSQL) 和用于解决这些难题的得分再评估的 reranking 方法。实验证明,该方法在 Spider 数据集上取得了最新的最先进的结果 (T5-SR-3b)。
Jun, 2023