SQL 查询生成的提及抽取与链接
使用 CodeLlama-34B 建立了一种创新的模式链接方法,通过从初始 SQL 查询中提取表格和列,创建了一个简明的架构,并且在与主流方法对比的情况下,在 SQL 生成方面表现最佳。利用 GPT4,在 Spider 数据集上实现了与主流 Text-to-SQL 方法相媲美的结果。
May, 2024
本文提出一种名为 ISESL-SQL 的框架,通过具有迭代性的语义增强架构图方法,构建了问题单词和数据库模式之间的联系,提高文本到 SQL 系统的泛化能力。实验结果表明,ISESL-SQL 优于其他基准模型,并展示了其在多种数据库上的鲁棒性和泛化能力。
Aug, 2022
利用生成模型将自然语言问题转换成 SQL 查询,并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验,将执行准确率从 69.0%提高到 74.4%。
Apr, 2018
本文提出了一种新方法 TypeSQL,通过将问题转换为插槽填充任务,并利用类型信息来更好地理解自然语言问题中的稀有实体和数字,从而实现了通过自然语言与关系型数据库进行交互。在 WikiSQL 数据集上测试该方法,比现有技术提高了 5.5%的性能。同时,利用数据库内容进行访问可以显著提高用户查询的性能,TypeSQL 的准确度为 82.6%,相对于之前的内容敏感模型提高了 17.5%。
Apr, 2018
SQLova 是第一个在 WikiSQL 数据集中实现人类性能的自然语言到 SQL 模型,利用了 BERT 通过有效的表格语境方法,结合了多种流行的 NL2SQL 方法,在逻辑形式和执行准确度方面分别优于先前的最新技术水平 8.2%和 2.5%。我们特别注意到,在使用这样的大型预训练模型时,BERT 与序列到序列解码器会导致性能不佳,这表明设计的重要性。我们还对数据集和我们的模型进行了全面的分析,这可能有助于设计未来的 NL2SQL 数据集和模型。我们特别展示了我们模型的表现已经接近 WikiSQL 的上限,在其中我们观察到大部分评估错误是由于错误的注释,而我们的模型在执行准确度方面已经超过人类表现 1.3%。
Feb, 2019
本研究提出了一种名为 Multi-Layer Expert Generate SQL (MLEG-SQL) 的新方法,它利用一个专门的多任务分层网络来准确生成 SQL 语句,以解决由于不同分类任务引起的性能下降问题。
Jun, 2023
提出了一种使用门控机制动态选择连接过程、将两种连接过程集成到两个基于图神经网络的语义解析器中,并与 BERT 表征一起演示在具有挑战性的 Spider 数据集上的显著性能提升,该方法有助于增强模型输出的结构并提供更可解释的预测。
Sep, 2020
该研究使用基于关系感知自注意机制的统一框架,解决将自然语言问题转换为 SQL 查询中出现的通用性问题,包括编码数据库关系,建立数据库列和查询的链接,以及特征表示。在 Spider 数据集上,该框架将的精确匹配准确度提高到 57.2%,优于其最好的对手 8.7%的绝对改进,并在 BERT 的支持下,实现了 65.6%的性能,成为了新的最佳表现,同时也在模型对数据库链接和对齐的理解方面得到了定性改善。
Nov, 2019
本文提出了一种简单的方法,利用表格内容为基于 BERT 的模型解决文本到 SQL 的问题。通过观察表格内容与问题中的一些单词匹配以及表格标题也与问题中的一些单词匹配,我们为深度模型编码了两个额外的特征向量。我们在 WikiSQL 数据集上进行了测试,并在逻辑形式和执行准确性方面比 BERT 基线提高了 3.7%,成为业内领先者。
Oct, 2019
本研究提出 Squall 数据集,通过丰富文本 Sql 表达,探索了音标级别的监督对于优化语义解析任务表现的影响,并提出了两种方法:(1) 监督注意力;(2) 辅助任务,以提高基准测试中的执行准确性。
Oct, 2020