辅助任务零样本文本到 SQL 学习
本研究提出了一种新的零样本文本到 SQL 任务中的方法,该方法不依赖于任何额外的手动注释,并在 WikiSQL 数据集和 ESQL 数据集上展开了广泛实验,相较于使用相同预训练模型的现有方法,我们的方法在两个数据集上都取得了显著的改进,特别是在零样本子集上,我们的方法进一步提高了改进。
Sep, 2021
在研究神经网络将文本描述翻译成 SQL 查询方面,在零射跨域设置下取得了显著进展,但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK,用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中,我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本,并证明当样本需要这种领域知识时,预测准确率显著下降,即使该领域知识出现在训练集中,模型对相关训练样本的预测仍然正确。
Sep, 2021
研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性,提出 TKK framework 用于学习 text-to-SQL parsing,该框架在多个测试数据集上表现出了显著的效果。
Oct, 2022
本文介绍了 ChatGPT 在 Text-to-SQL 能力上的综合分析,使用了 12 个基准数据集进行实验,结果表明 ChatGPT 在 Text-to-SQL 上有着强大的能力,在零样本情况下甚至超过了 SOTA 模型,在实际应用中具有潜在价值,并公开了生成的数据集。
Mar, 2023
本文提出了一种简单的方法,利用表格内容为基于 BERT 的模型解决文本到 SQL 的问题。通过观察表格内容与问题中的一些单词匹配以及表格标题也与问题中的一些单词匹配,我们为深度模型编码了两个额外的特征向量。我们在 WikiSQL 数据集上进行了测试,并在逻辑形式和执行准确性方面比 BERT 基线提高了 3.7%,成为业内领先者。
Oct, 2019
本文提出了一种将 SQL 查询表示为有向图的策略,并采用图到序列模型将全局结构信息编码成节点嵌入的方法,从而有效地学习 SQL 查询模式和其解释之间的相关性,实验结果表明,我们的模型在 WikiSQL 数据集和 Stackoverflow 数据集上表现显著优于 Seq2Seq 和 Tree2Seq 基线模型,达到了最先进的性能水平。
Sep, 2018
SQLova 是第一个在 WikiSQL 数据集中实现人类性能的自然语言到 SQL 模型,利用了 BERT 通过有效的表格语境方法,结合了多种流行的 NL2SQL 方法,在逻辑形式和执行准确度方面分别优于先前的最新技术水平 8.2%和 2.5%。我们特别注意到,在使用这样的大型预训练模型时,BERT 与序列到序列解码器会导致性能不佳,这表明设计的重要性。我们还对数据集和我们的模型进行了全面的分析,这可能有助于设计未来的 NL2SQL 数据集和模型。我们特别展示了我们模型的表现已经接近 WikiSQL 的上限,在其中我们观察到大部分评估错误是由于错误的注释,而我们的模型在执行准确度方面已经超过人类表现 1.3%。
Feb, 2019
为了评估系统在现实世界中未见数据上的泛化能力,本文首先比较了人工生成和自动生成的问题,提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次,我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力,因此提出了评估未来工作的补充数据集划分。最后,我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难,并启发未来研究的有效衡量方法。
Jun, 2018