文本到 SQL 的最近进展：我们已经掌握了什么，以及我们期望的

COLINGAug, 2022

文本到 SQL 的最近进展：我们已经掌握了什么，以及我们期望的

Recent Advances in Text-to-SQL: A Survey of What We Have and What We Expect

Naihao Deng, Yulong Chen, Yue Zhang

TL;DR该文回顾了 Text-to-SQL 在数据集、方法和评估方面的最新进展，总结了该领域所面临的挑战，并讨论了未来的研究方向，对于现有工作的快速访问和激励未来研究具有重要的指导意义。

Abstract

text-to-sql has attracted attention from both the natural language processing and database communities because of its ability to convert the sema

text-to-sql natural language processing database systems semantics survey

发现论文，激发创造

基于深度学习的自然语言文本到 SQL 查询转换：一项调查

本文研究了使用自然语言作为桥梁，通过有效访问数据库创建一个高效的文本到 SQL 模型，重点探讨了 24 个不同神经网络模型以及 11 个常用数据集的特点和局限性，最终讨论了 Text2SQL 技术在实现无缝数据查询方面的可能性。

Aug, 2022

文本转 SQL 解析调查：概念，方法和未来方向

该研究综述了文本到结构化查询语言解析的深度学习方法，介绍了单轮和多轮对话的文本到 SQL 解析语料库，阐明了预训练语言模型和现有方法，探讨了面临的挑战和未来发展方向。

Aug, 2022

下一代数据库接口：LLM 基于文本到 SQL 的调查

根据自然语言问题（文本到 SQL）生成准确的 SQL 是一个长期存在的问题，传统的文本到 SQL 系统使用人工工程和深度神经网络，而最近的大型语言模型（LLMs）已经展示出在自然语言理解方面的显著能力，因此，将 LLM-based 实现整合到文本到 SQL 研究中可以带来独特的机遇、挑战和解决方案。

Jun, 2024

改进文本到 SQL 评估方法

为了评估系统在现实世界中未见数据上的泛化能力，本文首先比较了人工生成和自动生成的问题，提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次，我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力，因此提出了评估未来工作的补充数据集划分。最后，我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难，并启发未来研究的有效衡量方法。

Jun, 2018

基于真实用户查询评估文本到 SQL 系统的数据模型稳健性

基于一个实际的部署案例和真实用户提问数据，本研究评估了 Text-to-SQL 系统在不同数据模型下的健壮性，并探讨了语言模型的性能以及训练数据规模、预处理和后处理步骤对系统性能的影响。此外，研究还为研究社区提供了一个新的基准数据集，可评估针对不同数据模型的查询复杂度。

Feb, 2024

基于物联网防御的文本转 SQL 之上：用于查询和分类物联网威胁的全面框架

基于物联网文本到 SQL 数据集，我们研究了如何从返回的数据中推断新信息，通过两阶段处理（查询和数据信息推断）可以改善文本到 SQL 的性能，并提供了测试领域特定推理的新方法。

Jun, 2024

基于分析洞察引擎的端到端文本到 SQL 生成

通过大型语言模型驱动的我们的文本到 SQL 生成管道的设计和实现解决了数据分析师高复杂度 SQL 查询的支持、低延迟的即席查询需求，以及对领域特定术语和实践的理解的挑战。

Jun, 2024

SQL 查询生成的最新进展：综述

该论文综述了最新的自然语言转 SQL 查询方法和模型，并描述了使用深度学习技术的各种架构，阐述了数据集和评估指标。

May, 2020

自然语言表格数据查询和可视化接口：调研

自然语言处理引起了用户与表格数据交互方式的革命，通过更直观、基于语言的界面，从传统的查询语言和手动绘图转变。大语言模型（LLMs）如 ChatGPT 及其后续模型进一步推进了这一领域，为自然语言处理技术开辟了新的途径。本研究综述了面向表格数据查询与可视化的自然语言界面，该界面允许用户使用自然语言查询与数据进行交互。我们介绍了这些界面背后的基本概念和技术，特别关注实现自然语言到 SQL 查询或数据可视化命令的语义解析技术。接着，我们从数据集、方法论、评估指标和系统设计等角度探讨了文本到 SQL 和文本到可视化问题的最新进展。这包括深入研究了 LLMs 的影响，突出了它们的优势、限制和未来改进的潜力。通过本综述，我们旨在为对开发和应用大语言模型时代的数据交互自然语言界面感兴趣的研究人员和实践者提供一条路线图。

Oct, 2023

TypeSQL: 基于知识的类型感知神经网络文本到 SQL 生成

本文提出了一种新方法 TypeSQL，通过将问题转换为插槽填充任务，并利用类型信息来更好地理解自然语言问题中的稀有实体和数字，从而实现了通过自然语言与关系型数据库进行交互。在 WikiSQL 数据集上测试该方法，比现有技术提高了 5.5％的性能。同时，利用数据库内容进行访问可以显著提高用户查询的性能，TypeSQL 的准确度为 82.6％，相对于之前的内容敏感模型提高了 17.5％。

Apr, 2018