BookSQL：面向会计领域的大规模文本到 SQL 数据集

ACLJun, 2024

BookSQL：面向会计领域的大规模文本到 SQL 数据集

BookSQL: A Large Scale Text-to-SQL Dataset for Accounting Domain

Rahul Kumar, Amar Raja Dibbu, Shrutendra Harsola, Vignesh Subrahmaniam, Ashutosh Modi

TL;DR给定一份新的大规模文本转 SQL 数据集（BookSQL），研究作者通过实验与分析现有的最先进模型，发现在会计和金融领域存在显著的性能差距，进而指出有需要开发更专注于该领域的模型。

Abstract

Several large-scale datasets (e.g., WikiSQL, Spider) for developing natural language interfaces to databases have recently been proposed. These datasets cover a wide breadth of domains but fall short on some essential domains, such as finance and accounting. Given that →

large-scale datasets natural language interfaces accounting databases text-to-sql dataset performance gaps

发现论文，激发创造

LLM 是否可以作为数据库接口？一种基于大规模数据库的文本到 SQL 的 BIg Bench

本文提出了一个名为 Bird 的大规模基准数据集，旨在填补现有基准测试数据集在数据库值、外部知识和 SQL 某些方面的不足。实验结果表明，在大型数据库的文本到 SQL 转换中，数据库值具有重要意义。同时，最先进的文本到 SQL 模型 ChatGPT，转换准确度仅为 40.08%，距离人类结果 92.96% 还有巨大的差距。

May, 2023

TableQA：一个用于表感知 SQL 生成的大规模中文文本到 SQL 数据集

本文介绍了 TableQA dataset 及其挑战性和必要性，探讨了解决不同条件值表述和表格外查询的问题的两种基于表格知识的方法，并给出实验结果。

Jun, 2020

探索跨领域文本到 SQL 泛化的未被充分利用的限制

在研究神经网络将文本描述翻译成 SQL 查询方面，在零射跨域设置下取得了显著进展，但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK，用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中，我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本，并证明当样本需要这种领域知识时，预测准确率显著下降，即使该领域知识出现在训练集中，模型对相关训练样本的预测仍然正确。

Sep, 2021

文本到 SQL 的最近进展：我们已经掌握了什么，以及我们期望的

该文回顾了 Text-to-SQL 在数据集、方法和评估方面的最新进展，总结了该领域所面临的挑战，并讨论了未来的研究方向，对于现有工作的快速访问和激励未来研究具有重要的指导意义。

Aug, 2022

基于深度学习的自然语言文本到 SQL 查询转换：一项调查

本文研究了使用自然语言作为桥梁，通过有效访问数据库创建一个高效的文本到 SQL 模型，重点探讨了 24 个不同神经网络模型以及 11 个常用数据集的特点和局限性，最终讨论了 Text2SQL 技术在实现无缝数据查询方面的可能性。

Aug, 2022

基于真实用户查询评估文本到 SQL 系统的数据模型稳健性

基于一个实际的部署案例和真实用户提问数据，本研究评估了 Text-to-SQL 系统在不同数据模型下的健壮性，并探讨了语言模型的性能以及训练数据规模、预处理和后处理步骤对系统性能的影响。此外，研究还为研究社区提供了一个新的基准数据集，可评估针对不同数据模型的查询复杂度。

Feb, 2024

基于大型语言模型的文本到 SQL、文本到 Python 和文本到函数的重新增强 —— 在交通领域中的真实应用

我们提出了一种更适应性更强的提示方法，通过查询重写和 SQL 增强来提高 Text-to-SQL 模型的性能，并在商业数据集上实验证明了显著的性能改善。

Oct, 2023

基于物联网防御的文本转 SQL 之上：用于查询和分类物联网威胁的全面框架

基于物联网文本到 SQL 数据集，我们研究了如何从返回的数据中推断新信息，通过两阶段处理（查询和数据信息推断）可以改善文本到 SQL 的性能，并提供了测试领域特定推理的新方法。

Jun, 2024

KaggleDBQA：文本 - SQL 解析器的真实性评估

本文探讨了实现自然语言查询现实关系数据库的挑战，提出了一个新的跨领域评估数据集 KaggleDBQA，并通过引入数据库文档等隐含领域知识的方法，将现有模型的准确性提高了 13.2%。

Jun, 2021

TypeSQL: 基于知识的类型感知神经网络文本到 SQL 生成

本文提出了一种新方法 TypeSQL，通过将问题转换为插槽填充任务，并利用类型信息来更好地理解自然语言问题中的稀有实体和数字，从而实现了通过自然语言与关系型数据库进行交互。在 WikiSQL 数据集上测试该方法，比现有技术提高了 5.5％的性能。同时，利用数据库内容进行访问可以显著提高用户查询的性能，TypeSQL 的准确度为 82.6％，相对于之前的内容敏感模型提高了 17.5％。

Apr, 2018