内容增强的基于 BERT 的文本到 SQL 生成
本文使用预训练的 BERT 模型来处理表格检索任务,研究如何编码表格内容以及如何将其他文献中的特征与 BERT 模型联合训练,实验表明这一方法在公共数据集上表现卓越。
May, 2020
本研究提出了一种新的零样本文本到 SQL 任务中的方法,该方法不依赖于任何额外的手动注释,并在 WikiSQL 数据集和 ESQL 数据集上展开了广泛实验,相较于使用相同预训练模型的现有方法,我们的方法在两个数据集上都取得了显著的改进,特别是在零样本子集上,我们的方法进一步提高了改进。
Sep, 2021
SQLova 是第一个在 WikiSQL 数据集中实现人类性能的自然语言到 SQL 模型,利用了 BERT 通过有效的表格语境方法,结合了多种流行的 NL2SQL 方法,在逻辑形式和执行准确度方面分别优于先前的最新技术水平 8.2%和 2.5%。我们特别注意到,在使用这样的大型预训练模型时,BERT 与序列到序列解码器会导致性能不佳,这表明设计的重要性。我们还对数据集和我们的模型进行了全面的分析,这可能有助于设计未来的 NL2SQL 数据集和模型。我们特别展示了我们模型的表现已经接近 WikiSQL 的上限,在其中我们观察到大部分评估错误是由于错误的注释,而我们的模型在执行准确度方面已经超过人类表现 1.3%。
Feb, 2019
本文设计了新的挑战测试基准 WikiSQL-TS 和 WikiTQ-TS,模拟了实际主题转移场景,并提出了适用于 TableQA 的 T3QA(主题可转移的表格问题回答)方案,包括注入特定主题词汇、生成主题专用训练数据生成程序和逻辑形式重新排序器。我们认为我们的主题分裂基准将会促进更好的部署的鲁棒的 TableQA 解决方案。
Sep, 2021
本文提出一种判别式 re-ranker 方法,用于在 generative text-to-SQL 模型的预测输出中提取最佳 SQL 查询,从而提高表现。作为 schema agnostic BERT 细调分类器构建 re-ranker。在分析不同查询难度级别的 text-to-SQL 和 re-ranker 模型的相对优势的基础上,建议如何结合这两种模型以获得最佳表现,我们通过将其应用于两种最先进的 text-to-SQL 模型,证明了 re-ranker 的有效性,在编写本文时在 Spider 排行榜上排名前四。
Feb, 2020
利用生成模型将自然语言问题转换成 SQL 查询,并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验,将执行准确率从 69.0%提高到 74.4%。
Apr, 2018
本研究旨在解决自然语言处理中未结构化文本与半结构化表之间的关系问题,通过提出基于内容的表的检索方法,应用精心设计的特征和神经网络结构实现查找中最相关表格的目标,并发布了一个包含 21,113 个网络查询和 273,816 个表格的开放领域数据集,验证了该方法的有效性并提出了该任务的挑战。
Jun, 2017
该研究探讨了神经话语解析的问题,引入新的执行指南机制来利用 SQL 的语义,证明其普遍提高了基于自回归生成模型的语义解析模型的性能。
Jul, 2018
本文旨在研究如何应用预训练语言模型和 Hybrid Ranking Network (HydraNet) 方法来优化 Text-to-SQL 任务,通过将问题和一个具体的列一起以列排名和解码的形式呈现,然后通过简单的规则组装到一起。实验表明,该方法非常有效,并在 WikiSQL 数据集上实现了最佳表现。
Aug, 2020