TrustSQL：具备多样性无法回答问题的文本到 SQL 模型可靠性基准测试

Mar, 2024

TrustSQL：具备多样性无法回答问题的文本到 SQL 模型可靠性基准测试

TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions

Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi

TL;DR近期对于大型语言模型的研究取得了显著进展，特别是在将自然语言问题翻译为 SQL 查询方面的准确性能大幅提升。然而，对于实际部署中遇到的各种类型问题，包括无法回答的问题，这些文本到 SQL 模型的可靠性还知之甚少。为了探讨这个方面，我们提出了 TrustSQL，这是一个新的基准系统，旨在评估文本到 SQL 模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一：1）SQL 预测；2）不进行预测，无论是由于生成的 SQL 可能存在问题，还是面对无法回答的问题。为了对模型进行评估，我们探索了特定于该任务的各种建模方法，包括：1）为可回答性检测、SQL 生成和错误检测优化独立的模型，然后将它们集成到一个单一的流程中；2）开发一个统一的方法，优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分，表明解决这一挑战涉及到许多不同的研究领域，并为模型发展开辟了新的途径。然而，尽管有这么多的方法，但没有一种能够超越纯基准的可靠性性能，即放弃回答所有问题。

Abstract

Recent advances in large language models (LLMs) have led to significant improvements in translating natural language questions into SQL queries. While achieving high accuracy in SQL generation is crucial, little is known about the extent to which these →

large language models text-to-sql models reliability assessment benchmark model evaluation

发现论文，激发创造

基于真实用户查询评估文本到 SQL 系统的数据模型稳健性

基于一个实际的部署案例和真实用户提问数据，本研究评估了 Text-to-SQL 系统在不同数据模型下的健壮性，并探讨了语言模型的性能以及训练数据规模、预处理和后处理步骤对系统性能的影响。此外，研究还为研究社区提供了一个新的基准数据集，可评估针对不同数据模型的查询复杂度。

Feb, 2024

处理模糊和无法回答的问题：文本到 SQL

本文旨在研究文本到 SQL 的自然语言处理问题中的有歧义问题和无法回答问题，并总结为 6 个特征类别。其次，提出了一个简单而高效的计数事实例子生成方法，用于自动生成有歧义和无法回答的文本到 SQL 实例。进一步提出了一个基于弱监督模型 DTE (Detecting-Then-Explaining) ，用于错误检测、定位和解释。实验结果表明，该模型在真实世界的例子和生成的例子上比各种基线模型都要好。

Dec, 2022

LG AI Research & KAIST 参与 EHRSQL 2024：利用伪标记的无法回答的问题自我训练大语言模型，构建可靠的电子病历文本到 SQL 系统

通过使用伪标记的无法回答的问题，我们提出了一种自我训练策略，以提高电子健康记录（EHR）的文本转 SQL 模型的可靠性。该方法包括两阶段的训练流程，紧接着使用基于令牌熵和查询执行的过滤方法。在 EHRSQL 2024 共享任务中，我们的方法证明了其有效性并展示了通过更可靠的文本转 SQL 系统改善医疗决策的潜力。

May, 2024

评估跨领域文本到 SQL 模型和基准

通过对几个重要的跨领域文本到 SQL 基准进行广泛的研究和重新评估，本文发现由于提供的样本可能有多个解释，这些基准的完美表现是不可行的，并且在重新评估后，模型的相对性能会发生变化。最令人瞩目的是，我们的评估发现，最近基于 GPT4 的模型在人工评估中超过了 Spider 基准中的金标准参考查询，这一发现强调了在谨慎解读基准评估的同时，独立评估在推动该领域进展中起到关键作用。

Oct, 2023

改进文本到 SQL 评估方法

为了评估系统在现实世界中未见数据上的泛化能力，本文首先比较了人工生成和自动生成的问题，提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次，我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力，因此提出了评估未来工作的补充数据集划分。最后，我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难，并启发未来研究的有效衡量方法。

Jun, 2018

Text2Analysis: 具有高级数据分析和不明确查询的表格问答基准

通过开发 Text2Analysis 基准和创新的注释方法，我们展示了在表格数据分析领域中大规模语言模型的潜力，以推动进一步的研究机会。

Dec, 2023

一个文本到 SQL 的跨领域问题意图分类基准测试：你问了一个好问题吗？

本研究提出 TriageSQL，旨在解决跨领域的文本到 SQL 题意分类问题，包括将无法回答的问题和可回答问题区分开来。RoBERTa 模型在测试集上取得 60% 的 F1 分数，表明需要在这个任务上进一步改进。

Oct, 2020

PromptMind 团队在 EHRSQL-2024 上：使用集成 LLMs 提高 SQL 生成的可靠性

使用大型语言模型（LLM）进行提示和微调的两种方法以生成 EHRSQL 查询，结果表明这些方法在准确执行和可靠性方面都表现优秀，并且集成方法通过减少错误进一步提高了生成的可靠性。这些方法可应用于强调准确性和可靠性的特定领域的文本转 SQL 问题。

May, 2024

Dr.Spider：一种针对文本到 SQL 稳健性的诊断评估基准

本文提出了一个跨领域文本到 SQL 基准（Spider）的综合健壮性评测来诊断模型的鲁棒性，并设计了 17 个数据库、自然语言问题和 SQL 查询的扰动来从不同角度衡量其鲁棒性。实验结果表明，即使是最鲁棒的模型在最具挑战性的扰动上也会出现 50.7% 的性能下降，分析了文本到 SQL 模型设计并提出了改进鲁棒性的见解。

Jan, 2023

基于大型语言模型的文本转 SQL：基准评估

本文对大型语言模型（LLMs）在 Text-to-SQL 任务中的应用进行了研究，提出了一种新的集成解决方案 DAIL-SQL，并通过实验证明了其在 Spider 排行榜上取得了 86.6% 的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源 LLMs 在 Text-to-SQL 中的潜力，以及任务特定的监督微调的优势和劣势，希望能够对 LLMs 在 Text-to-SQL 领域提供更深入的了解，并激发进一步的研究和广泛应用。

Aug, 2023