UNITE: 一个用于文本到SQL评估的统一基准

May, 2023

UNITE: 一个用于文本到SQL评估的统一基准

UNITE: A Unified Benchmark for Text-to-SQL Evaluation

Wuwei Lan, Zhiguo Wang, Anuj Chauhan, Henghui Zhu, Alexander Li...

TL;DR本论文介绍了一个名为 UNITE 的统一文本到SQL评估基准，其中包含来自 12 个以上领域的自然语言问题，来自 3.9K 多个 SQL 模式的查询以及 29K 个数据库，并比较了六种最新的 SOTA 文本到SQL解析器在这个基准上的表现，揭示了这些最先进的模型在组合泛化和鲁棒性问题上仍然存在困难。

Abstract

A practical text-to-sql system should generalize well on a wide variety of natural language questions, unseen database schemas, and novel SQL query structures. To comprehensively evaluate →

发现论文，激发创造

野外Text-to-SQL：基于Stack Exchange数据的自然发生数据集

本文研究基于自然语言理解的语义解析数据集，提出了一个包含真实用例中语句与SQL的对应关系的SEDE 数据集，并展示该数据集所带来的挑战与实用性，进一步表明针对真实用例的数据集更适合进行语义解析任务的评估。

Jun, 2021

KaggleDBQA：文本- SQL 解析器的真实性评估

本文探讨了实现自然语言查询现实关系数据库的挑战，提出了一个新的跨领域评估数据集KaggleDBQA，并通过引入数据库文档等隐含领域知识的方法，将现有模型的准确性提高了13.2%。

Jun, 2021

评估大型语言模型的文本到SQL能力

通过对 Codex 语言模型的 Text-to-SQL 能力进行实证评估，我们发现 Codex 在 Spider 基准测试中是一个强有力的基线，并分析了 Codex 在该设置中的失败模式。此外，我们展示了在 GeoQuery 和 Scholar 基准测试中，提供少量领域内示例可以使 Codex 表现优于针对这些少量样例进行微调的现有模型。

Mar, 2022

通用且鲁棒的文本到SQL解析

研究text-to-SQL parsing在三个层面的泛化性和抗扰性，提出TKK framework用于学习text-to-SQL parsing，该框架在多个测试数据集上表现出了显著的效果。

Oct, 2022

LLM是否可以作为数据库接口？一种基于大规模数据库的文本到SQL的BIg Bench

本文提出了一个名为Bird的大规模基准数据集，旨在填补现有基准测试数据集在数据库值、外部知识和SQL某些方面的不足。实验结果表明，在大型数据库的文本到SQL转换中，数据库值具有重要意义。同时，最先进的文本到SQL模型ChatGPT，转换准确度仅为40.08%，距离人类结果92.96%还有巨大的差距。

May, 2023

ScienceBenchmark：一个复杂的真实世界基准测试，用于评估自然语言转SQL系统

本文介绍了 ScienceBenchmark，这是一个 NL-to-SQL 基准，旨在使高度特定于领域的数据库中的自然语言查询能够正常工作，并扩展了人工生成数据的数量，以使用 GPT-3 生成合成数据。

Jun, 2023

基于大型语言模型的文本转SQL：基准评估

本文对大型语言模型（LLMs）在Text-to-SQL任务中的应用进行了研究，提出了一种新的集成解决方案DAIL-SQL，并通过实验证明了其在Spider排行榜上取得了86.6%的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源LLMs在Text-to-SQL中的潜力，以及任务特定的监督微调的优势和劣势，希望能够对LLMs在Text-to-SQL领域提供更深入的了解，并激发进一步的研究和广泛应用。

Aug, 2023

评估跨领域文本到SQL模型和基准

通过对几个重要的跨领域文本到SQL基准进行广泛的研究和重新评估，本文发现由于提供的样本可能有多个解释，这些基准的完美表现是不可行的，并且在重新评估后，模型的相对性能会发生变化。最令人瞩目的是，我们的评估发现，最近基于GPT4的模型在人工评估中超过了Spider基准中的金标准参考查询，这一发现强调了在谨慎解读基准评估的同时，独立评估在推动该领域进展中起到关键作用。

Oct, 2023

TrustSQL：具备多样性无法回答问题的文本到SQL模型可靠性基准测试

近期对于大型语言模型的研究取得了显著进展，特别是在将自然语言问题翻译为SQL查询方面的准确性能大幅提升。然而，对于实际部署中遇到的各种类型问题，包括无法回答的问题，这些文本到SQL模型的可靠性还知之甚少。为了探讨这个方面，我们提出了TrustSQL，这是一个新的基准系统，旨在评估文本到SQL模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一：1）SQL预测；2）不进行预测，无论是由于生成的SQL可能存在问题，还是面对无法回答的问题。为了对模型进行评估，我们探索了特定于该任务的各种建模方法，包括：1）为可回答性检测、SQL生成和错误检测优化独立的模型，然后将它们集成到一个单一的流程中；2）开发一个统一的方法，优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分，表明解决这一挑战涉及到许多不同的研究领域，并为模型发展开辟了新的途径。然而，尽管有这么多的方法，但没有一种能够超越纯基准的可靠性性能，即放弃回答所有问题。

Mar, 2024

E-SQL: 通过问题增强实现直接架构链接的文本到SQL转换

本研究旨在解决当前文本到SQL转换中的复杂数据库架构处理和用户查询歧义问题。提出的E-SQL新模型通过直接架构链接和候选谓词增强来改进自然语言查询，与数据库结构更好地结合。实验结果表明，E-SQL在复杂查询上表现出色，测试集的执行准确率达到66.29%。

Sep, 2024