一个文本到 SQL 的跨领域问题意图分类基准测试：你问了一个好问题吗？

Oct, 2020

一个文本到 SQL 的跨领域问题意图分类基准测试：你问了一个好问题吗？

Did You Ask a Good Question? A Cross-Domain Question Intention Classification Benchmark for Text-to-SQL

Yusen Zhang, Xiangyu Dong, Shuaichen Chang, Tao Yu, Peng Shi...

TL;DR本研究提出 TriageSQL，旨在解决跨领域的文本到 SQL 题意分类问题，包括将无法回答的问题和可回答问题区分开来。RoBERTa 模型在测试集上取得 60% 的 F1 分数，表明需要在这个任务上进一步改进。

Abstract

Neural models have achieved significant results on the text-to-sql task, in which most current work assumes all the input questions are legal and generates a SQL query for any input. However, in the real scenario, users can input any text that may not be able to be answered by a SQL qu

text-to-sql intention classification unanswerable questions roberta model cross-domain

发现论文，激发创造

探索跨领域文本到 SQL 泛化的未被充分利用的限制

在研究神经网络将文本描述翻译成 SQL 查询方面，在零射跨域设置下取得了显著进展，但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK，用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中，我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本，并证明当样本需要这种领域知识时，预测准确率显著下降，即使该领域知识出现在训练集中，模型对相关训练样本的预测仍然正确。

Sep, 2021

TrustSQL：具备多样性无法回答问题的文本到 SQL 模型可靠性基准测试

近期对于大型语言模型的研究取得了显著进展，特别是在将自然语言问题翻译为 SQL 查询方面的准确性能大幅提升。然而，对于实际部署中遇到的各种类型问题，包括无法回答的问题，这些文本到 SQL 模型的可靠性还知之甚少。为了探讨这个方面，我们提出了 TrustSQL，这是一个新的基准系统，旨在评估文本到 SQL 模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一：1）SQL 预测；2）不进行预测，无论是由于生成的 SQL 可能存在问题，还是面对无法回答的问题。为了对模型进行评估，我们探索了特定于该任务的各种建模方法，包括：1）为可回答性检测、SQL 生成和错误检测优化独立的模型，然后将它们集成到一个单一的流程中；2）开发一个统一的方法，优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分，表明解决这一挑战涉及到许多不同的研究领域，并为模型发展开辟了新的途径。然而，尽管有这么多的方法，但没有一种能够超越纯基准的可靠性性能，即放弃回答所有问题。

Mar, 2024

评估跨领域文本到 SQL 模型和基准

通过对几个重要的跨领域文本到 SQL 基准进行广泛的研究和重新评估，本文发现由于提供的样本可能有多个解释，这些基准的完美表现是不可行的，并且在重新评估后，模型的相对性能会发生变化。最令人瞩目的是，我们的评估发现，最近基于 GPT4 的模型在人工评估中超过了 Spider 基准中的金标准参考查询，这一发现强调了在谨慎解读基准评估的同时，独立评估在推动该领域进展中起到关键作用。

Oct, 2023

跨领域数据库中基于中间表示的复杂文本转 SQL 研究

利用 IRNet 的神经方法，从文本向 SQL 转换的复杂性和跨领域性的角度入手，成功解决了大量领域外单词造成的列预测挑战，并在 Spider 基准测试中取得了 46.7％精度，比之前表现最佳的方法 “进步了 19.5％”，在 Spider 排行榜上位居第一。

May, 2019

KaggleDBQA：文本 - SQL 解析器的真实性评估

本文探讨了实现自然语言查询现实关系数据库的挑战，提出了一个新的跨领域评估数据集 KaggleDBQA，并通过引入数据库文档等隐含领域知识的方法，将现有模型的准确性提高了 13.2%。

Jun, 2021

ColloQL：搜索查询的跨领域文本转 SQL 的鲁棒性解决方案

使用数据增强技术和基于采样的内容感知 BERT 模型 (ColloQL) 实现了鲁棒的自然语言搜索 (NLS) 查询的文本到 SQL 建模，评估表明该方法优于现有技术。

Oct, 2020

面向开放域问答的混合文本和表格证据的双重阅读器 - 解析器

本文提出一种混合型框架，将文本和表格式证据作为输入，根据问题生成直接答案或 SQL 查询，并在几个开放领域问题回答（ODQA）数据集上表现出了明显优于基线模型的表现。在详细的分析中，证明生成结构化 SQL 查询将始终带来收益，尤其是对于那些需要复杂推理的问题。这是第一个将 Text2SQL 应用于 ODQA 任务的论文。

Aug, 2021

基于编辑的 SQL 查询生成技术：针对跨领域上下文相关问题

本研究提出了一种基于编辑机制的交互式文本到 SQL 生成方法，通过利用序列级的生成结果，结合上下文以及表结构信息来提高生成质量，并在 SParC 数据集上实现了优于当前最先进方法的生成效果。

Sep, 2019

Dr.Spider：一种针对文本到 SQL 稳健性的诊断评估基准

本文提出了一个跨领域文本到 SQL 基准（Spider）的综合健壮性评测来诊断模型的鲁棒性，并设计了 17 个数据库、自然语言问题和 SQL 查询的扰动来从不同角度衡量其鲁棒性。实验结果表明，即使是最鲁棒的模型在最具挑战性的扰动上也会出现 50.7% 的性能下降，分析了文本到 SQL 模型设计并提出了改进鲁棒性的见解。

Jan, 2023

LG AI Research & KAIST 参与 EHRSQL 2024：利用伪标记的无法回答的问题自我训练大语言模型，构建可靠的电子病历文本到 SQL 系统

通过使用伪标记的无法回答的问题，我们提出了一种自我训练策略，以提高电子健康记录（EHR）的文本转 SQL 模型的可靠性。该方法包括两阶段的训练流程，紧接着使用基于令牌熵和查询执行的过滤方法。在 EHRSQL 2024 共享任务中，我们的方法证明了其有效性并展示了通过更可靠的文本转 SQL 系统改善医疗决策的潜力。

May, 2024