一个文本到 SQL 的跨领域问题意图分类基准测试:你问了一个好问题吗?
在研究神经网络将文本描述翻译成 SQL 查询方面,在零射跨域设置下取得了显著进展,但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK,用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中,我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本,并证明当样本需要这种领域知识时,预测准确率显著下降,即使该领域知识出现在训练集中,模型对相关训练样本的预测仍然正确。
Sep, 2021
近期对于大型语言模型的研究取得了显著进展,特别是在将自然语言问题翻译为 SQL 查询方面的准确性能大幅提升。然而,对于实际部署中遇到的各种类型问题,包括无法回答的问题,这些文本到 SQL 模型的可靠性还知之甚少。为了探讨这个方面,我们提出了 TrustSQL,这是一个新的基准系统,旨在评估文本到 SQL 模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一:1)SQL 预测;2)不进行预测,无论是由于生成的 SQL 可能存在问题,还是面对无法回答的问题。为了对模型进行评估,我们探索了特定于该任务的各种建模方法,包括:1)为可回答性检测、SQL 生成和错误检测优化独立的模型,然后将它们集成到一个单一的流程中;2)开发一个统一的方法,优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分,表明解决这一挑战涉及到许多不同的研究领域,并为模型发展开辟了新的途径。然而,尽管有这么多的方法,但没有一种能够超越纯基准的可靠性性能,即放弃回答所有问题。
Mar, 2024
通过对几个重要的跨领域文本到 SQL 基准进行广泛的研究和重新评估,本文发现由于提供的样本可能有多个解释,这些基准的完美表现是不可行的,并且在重新评估后,模型的相对性能会发生变化。最令人瞩目的是,我们的评估发现,最近基于 GPT4 的模型在人工评估中超过了 Spider 基准中的金标准参考查询,这一发现强调了在谨慎解读基准评估的同时,独立评估在推动该领域进展中起到关键作用。
Oct, 2023
利用 IRNet 的神经方法,从文本向 SQL 转换的复杂性和跨领域性的角度入手,成功解决了大量领域外单词造成的列预测挑战,并在 Spider 基准测试中取得了 46.7%精度,比之前表现最佳的方法 “进步了 19.5%”,在 Spider 排行榜上位居第一。
May, 2019
本文探讨了实现自然语言查询现实关系数据库的挑战,提出了一个新的跨领域评估数据集 KaggleDBQA,并通过引入数据库文档等隐含领域知识的方法,将现有模型的准确性提高了 13.2%。
Jun, 2021
使用数据增强技术和基于采样的内容感知 BERT 模型 (ColloQL) 实现了鲁棒的自然语言搜索 (NLS) 查询的文本到 SQL 建模,评估表明该方法优于现有技术。
Oct, 2020
本文提出一种混合型框架,将文本和表格式证据作为输入,根据问题生成直接答案或 SQL 查询,并在几个开放领域问题回答(ODQA)数据集上表现出了明显优于基线模型的表现。在详细的分析中,证明生成结构化 SQL 查询将始终带来收益,尤其是对于那些需要复杂推理的问题。这是第一个将 Text2SQL 应用于 ODQA 任务的论文。
Aug, 2021
本研究提出了一种基于编辑机制的交互式文本到 SQL 生成方法,通过利用序列级的生成结果,结合上下文以及表结构信息来提高生成质量,并在 SParC 数据集上实现了优于当前最先进方法的生成效果。
Sep, 2019
本文提出了一个跨领域文本到 SQL 基准(Spider)的综合健壮性评测来诊断模型的鲁棒性,并设计了 17 个数据库、自然语言问题和 SQL 查询的扰动来从不同角度衡量其鲁棒性。实验结果表明,即使是最鲁棒的模型在最具挑战性的扰动上也会出现 50.7% 的性能下降,分析了文本到 SQL 模型设计并提出了改进鲁棒性的见解。
Jan, 2023
通过使用伪标记的无法回答的问题,我们提出了一种自我训练策略,以提高电子健康记录(EHR)的文本转 SQL 模型的可靠性。该方法包括两阶段的训练流程,紧接着使用基于令牌熵和查询执行的过滤方法。在 EHRSQL 2024 共享任务中,我们的方法证明了其有效性并展示了通过更可靠的文本转 SQL 系统改善医疗决策的潜力。
May, 2024