基于编辑的 SQL 查询生成技术:针对跨领域上下文相关问题
本文介绍了一种新的交互机制,允许用户直接编辑一步一步的 SQL 解释,以纠正 SQL 错误,实验结果显示,我们的方法在执行准确性方面比三种 SOTA 方法至少高出 31.6%,用户研究进一步显示,我们的方法可以帮助用户在更短的时间内解决更多的 SQL 任务并提高信心水平,特别是为非专业人士扩展了数据库的使用。
May, 2023
该论文通过设计一个简单而有效的数据增强框架,提出了一种层次化的 SQL 转自然语言问题生成模型,以及一种简单的采样策略来显著提高训练效率。在三个跨领域数据集上的实验表明,其方法可以一贯地改善表现,并且层次化生成组件是改善的关键。
Mar, 2021
利用生成模型将自然语言问题转换成 SQL 查询,并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验,将执行准确率从 69.0%提高到 74.4%。
Apr, 2018
QURG 提出了一种新型的问题重写引导方法,通过训练问题重写模型以便更好地理解当前问题和问题上下文间的关联,并设计了双流矩阵编码器来联合建模,从而最终实现了优化基于上下文的自然语言问题到 SQL 查询的性能表现。
May, 2023
本文提出一种混合型框架,将文本和表格式证据作为输入,根据问题生成直接答案或 SQL 查询,并在几个开放领域问题回答(ODQA)数据集上表现出了明显优于基线模型的表现。在详细的分析中,证明生成结构化 SQL 查询将始终带来收益,尤其是对于那些需要复杂推理的问题。这是第一个将 Text2SQL 应用于 ODQA 任务的论文。
Aug, 2021
本文提出了一种注入语法到问 - Schema 图编码器中用于 Text-to-SQL 解析器的方法 ——S$^2$SQL,它有效地利用了问题中的句法依赖信息来提高性能,并采用解耦约束来诱导多样化的关系边缘嵌入,实验结果在 Spider 和鲁棒性设置 Spider-Syn 上均表现优于所有现有方法,使性能在 Spider 排行榜上名列前茅。
Mar, 2022
该论文提出了一种名为 CQR-SQL 的方法,利用辅助对话问题改写(CQR)学习来显式地利用模式,并解耦文本 - SQL 语句的上下文依赖关系,从而增强 SQL 解析的能力。该方法在两个文本 - SQL 基准测试中取得了最新的最先进结果。
May, 2022
使用数据增强技术和基于采样的内容感知 BERT 模型 (ColloQL) 实现了鲁棒的自然语言搜索 (NLS) 查询的文本到 SQL 建模,评估表明该方法优于现有技术。
Oct, 2020
该研究探讨了神经话语解析的问题,引入新的执行指南机制来利用 SQL 的语义,证明其普遍提高了基于自回归生成模型的语义解析模型的性能。
Jul, 2018
通过注入外部 `文档` 中的知识来提高领域概括能力,我们提出了 DocuT5,该方法捕获了外键的表结构上下文和表与列的领域知识。在 Spider 数据集上的实验结果表明,DocuT5 的两种知识类型均优于具有受限解码的最先进的 T5,而领域知识在 Spider-DK 和 Spider-SYN 数据集上的表现不逊于最先进的方法。
Nov, 2022