X-SQL:使用上下文强化架构表示
本文提出了一种注入语法到问 - Schema 图编码器中用于 Text-to-SQL 解析器的方法 ——S$^2$SQL,它有效地利用了问题中的句法依赖信息来提高性能,并采用解耦约束来诱导多样化的关系边缘嵌入,实验结果在 Spider 和鲁棒性设置 Spider-Syn 上均表现优于所有现有方法,使性能在 Spider 排行榜上名列前茅。
Mar, 2022
SQLova 是第一个在 WikiSQL 数据集中实现人类性能的自然语言到 SQL 模型,利用了 BERT 通过有效的表格语境方法,结合了多种流行的 NL2SQL 方法,在逻辑形式和执行准确度方面分别优于先前的最新技术水平 8.2%和 2.5%。我们特别注意到,在使用这样的大型预训练模型时,BERT 与序列到序列解码器会导致性能不佳,这表明设计的重要性。我们还对数据集和我们的模型进行了全面的分析,这可能有助于设计未来的 NL2SQL 数据集和模型。我们特别展示了我们模型的表现已经接近 WikiSQL 的上限,在其中我们观察到大部分评估错误是由于错误的注释,而我们的模型在执行准确度方面已经超过人类表现 1.3%。
Feb, 2019
该研究关注语言解析到 SQL 的过程,并提出了一种使用图神经网络对数据库模式进行编码的方法,在 Spider 数据集上得到了较高的解析准确率。
May, 2019
传统的文本到 SQL 解析器在合成涉及多个表格或列的复杂 SQL 查询方面表现不佳,为了解决这个问题,我们提出了一种面向模式的多任务学习框架(名为 MTSQL)来处理复杂的 SQL 查询。通过设计一个模式链接鉴别器模块来区分有效的问题 - 模式关联,明确指示编码器通过特殊的链接关系来增强对齐质量。在解码器方面,我们定义了 6 种关系类型来描述表格和列之间的连接,并引入以运算符为中心的三元抽取器来识别那些与预定义关系相关的模式项。此外,我们通过预测的三元组建立了一组语法约束规则集,用于在 SQL 生成过程中过滤适当的 SQL 运算符和模式项。在跨领域的具有挑战性的文本到 SQL 基准测试 Spider 上,实验结果表明 MTSQL 比基线方法更有效,特别是在极端困难的场景中。此外,进一步的分析验证了我们的方法在处理复杂 SQL 查询方面的有希望的改进。
Mar, 2024
该研究使用基于关系感知自注意机制的统一框架,解决将自然语言问题转换为 SQL 查询中出现的通用性问题,包括编码数据库关系,建立数据库列和查询的链接,以及特征表示。在 Spider 数据集上,该框架将的精确匹配准确度提高到 57.2%,优于其最好的对手 8.7%的绝对改进,并在 BERT 的支持下,实现了 65.6%的性能,成为了新的最佳表现,同时也在模型对数据库链接和对齐的理解方面得到了定性改善。
Nov, 2019
本文提出了一种历史信息增强的文本转 SQL 模型(HIE-SQL),通过两种不同的模态(自然语言和 SQL)的双模态预训练模型来处理它们之间的不匹配,从而利用历史话语和最后预测的 SQL 查询中的上下文依赖信息,并设计了一个模式连接图来增强话语和 SQL 查询与数据库模式之间的联系。我们展示了历史信息增强方法显著提高了 HIE-SQL 的性能,在 SparC 和 CoSQL 数据集上取得了新的最优结果。
Mar, 2022
本文提出了一种新的基于 SQL 引导的预训练框架 STAR,用于上下文相关的文本到 SQL 解析,通过利用上下文信息,丰富自然语言(NL)话语和表模式表示,以解决文本到 SQL 解析中的问题,并取得了两个下游基准测试(SParC 和 CoSQL)的新最高性能,该研究可推动该领域的研究。
Oct, 2022
该论文探究了自然语言生成 SQL 查询的问题,并使用综合方法设计了三个深度神经网络,应用双向注意机制和卷积神经网络的字符级嵌入来提高结果,最终在 WikiSQL 数据集上达到了最先进的结果。
Dec, 2017
本研究提出了一种基于数据库架构图编码器的上下文相关文本到 SQL 任务模型,该模型使用历史用户输入的编码器和数据库架构项的历史信息,采用门控机制加权不同词汇的重要性,取得 SParC 数据集和 CoSQL 数据集上的最新最佳结果,并证明了该模型的实用性。
Nov, 2020
通过使用自我关联,让编码器理解表格和列之间的关系,以及将该信息使用在问题的解释过程中,使得神经编码器 - 解码器系统能够在 SQL 查询的实现上具有较好的泛化性,从而在 Spider 数据集上获得 42.94% 的精确匹配准确率。
Jun, 2019