改进文本到 SQL 评估方法

ACLJun, 2018

Improving Text-to-SQL Evaluation Methodology

Catherine Finegan-Dollak, Jonathan K. Kummerfeld, Li Zhang, Karthik Ramanathan, Sesh Sadasivam...

TL;DR为了评估系统在现实世界中未见数据上的泛化能力，本文首先比较了人工生成和自动生成的问题，提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次，我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力，因此提出了评估未来工作的补充数据集划分。最后，我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难，并启发未来研究的有效衡量方法。

Abstract

To be informative, an evaluation must measure how well systems generalize to realistic unseen data. We identify limitations of and propose improvements to current evaluations of text-to-sql systems. First, we com

evaluation text-to-sql systems dataset generalization anonymization

发现论文，激发创造

基于真实用户查询评估文本到 SQL 系统的数据模型稳健性

基于一个实际的部署案例和真实用户提问数据，本研究评估了 Text-to-SQL 系统在不同数据模型下的健壮性，并探讨了语言模型的性能以及训练数据规模、预处理和后处理步骤对系统性能的影响。此外，研究还为研究社区提供了一个新的基准数据集，可评估针对不同数据模型的查询复杂度。

Feb, 2024

文本到 SQL 的最近进展：我们已经掌握了什么，以及我们期望的

该文回顾了 Text-to-SQL 在数据集、方法和评估方面的最新进展，总结了该领域所面临的挑战，并讨论了未来的研究方向，对于现有工作的快速访问和激励未来研究具有重要的指导意义。

Aug, 2022

评估跨领域文本到 SQL 模型和基准

通过对几个重要的跨领域文本到 SQL 基准进行广泛的研究和重新评估，本文发现由于提供的样本可能有多个解释，这些基准的完美表现是不可行的，并且在重新评估后，模型的相对性能会发生变化。最令人瞩目的是，我们的评估发现，最近基于 GPT4 的模型在人工评估中超过了 Spider 基准中的金标准参考查询，这一发现强调了在谨慎解读基准评估的同时，独立评估在推动该领域进展中起到关键作用。

Oct, 2023

KaggleDBQA：文本 - SQL 解析器的真实性评估

本文探讨了实现自然语言查询现实关系数据库的挑战，提出了一个新的跨领域评估数据集 KaggleDBQA，并通过引入数据库文档等隐含领域知识的方法，将现有模型的准确性提高了 13.2%。

Jun, 2021

基于物联网防御的文本转 SQL 之上：用于查询和分类物联网威胁的全面框架

基于物联网文本到 SQL 数据集，我们研究了如何从返回的数据中推断新信息，通过两阶段处理（查询和数据信息推断）可以改善文本到 SQL 的性能，并提供了测试领域特定推理的新方法。

Jun, 2024

文本到 SQL 解析中合成高质量数据的重要性

本文提出了一种新颖的数据合成框架，其中包括来自模式的关键关系、强类型和基于模式距离的列抽样，并采用了 SQL-to-text 任务的中间表示（IR），进一步提高了生成的自然语言问题的质量。实验证明，当现有强大的语义解析器在高质量的合成数据上进行预调整时，这些模型在流行的基准测试中的准确性得到了显着提高。

Dec, 2022

下一代数据库接口：LLM 基于文本到 SQL 的调查

根据自然语言问题（文本到 SQL）生成准确的 SQL 是一个长期存在的问题，传统的文本到 SQL 系统使用人工工程和深度神经网络，而最近的大型语言模型（LLMs）已经展示出在自然语言理解方面的显著能力，因此，将 LLM-based 实现整合到文本到 SQL 研究中可以带来独特的机遇、挑战和解决方案。

Jun, 2024

文本转 SQL 中结构概括的研究

本文讨论了文本到 SQL 任务的结构概括问题。通过研究现有数据集和实验结果，我们观察到了（自然语言，SQL）模式过分拟合的实践限制。

Jan, 2023

通用且鲁棒的文本到 SQL 解析

研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性，提出 TKK framework 用于学习 text-to-SQL parsing，该框架在多个测试数据集上表现出了显著的效果。

Oct, 2022

TrustSQL：具备多样性无法回答问题的文本到 SQL 模型可靠性基准测试

近期对于大型语言模型的研究取得了显著进展，特别是在将自然语言问题翻译为 SQL 查询方面的准确性能大幅提升。然而，对于实际部署中遇到的各种类型问题，包括无法回答的问题，这些文本到 SQL 模型的可靠性还知之甚少。为了探讨这个方面，我们提出了 TrustSQL，这是一个新的基准系统，旨在评估文本到 SQL 模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一：1）SQL 预测；2）不进行预测，无论是由于生成的 SQL 可能存在问题，还是面对无法回答的问题。为了对模型进行评估，我们探索了特定于该任务的各种建模方法，包括：1）为可回答性检测、SQL 生成和错误检测优化独立的模型，然后将它们集成到一个单一的流程中；2）开发一个统一的方法，优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分，表明解决这一挑战涉及到许多不同的研究领域，并为模型发展开辟了新的途径。然而，尽管有这么多的方法，但没有一种能够超越纯基准的可靠性性能，即放弃回答所有问题。

Mar, 2024