文本到 SQL 的最近进展:我们已经掌握了什么,以及我们期望的
本文研究了使用自然语言作为桥梁,通过有效访问数据库创建一个高效的文本到 SQL 模型,重点探讨了 24 个不同神经网络模型以及 11 个常用数据集的特点和局限性,最终讨论了 Text2SQL 技术在实现无缝数据查询方面的可能性。
Aug, 2022
该研究综述了文本到结构化查询语言解析的深度学习方法,介绍了单轮和多轮对话的文本到 SQL 解析语料库,阐明了预训练语言模型和现有方法,探讨了面临的挑战和未来发展方向。
Aug, 2022
根据自然语言问题(文本到 SQL)生成准确的 SQL 是一个长期存在的问题,传统的文本到 SQL 系统使用人工工程和深度神经网络,而最近的大型语言模型(LLMs)已经展示出在自然语言理解方面的显著能力,因此,将 LLM-based 实现整合到文本到 SQL 研究中可以带来独特的机遇、挑战和解决方案。
Jun, 2024
为了评估系统在现实世界中未见数据上的泛化能力,本文首先比较了人工生成和自动生成的问题,提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次,我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力,因此提出了评估未来工作的补充数据集划分。最后,我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难,并启发未来研究的有效衡量方法。
Jun, 2018
基于一个实际的部署案例和真实用户提问数据,本研究评估了 Text-to-SQL 系统在不同数据模型下的健壮性,并探讨了语言模型的性能以及训练数据规模、预处理和后处理步骤对系统性能的影响。此外,研究还为研究社区提供了一个新的基准数据集,可评估针对不同数据模型的查询复杂度。
Feb, 2024
基于物联网文本到 SQL 数据集,我们研究了如何从返回的数据中推断新信息,通过两阶段处理(查询和数据信息推断)可以改善文本到 SQL 的性能,并提供了测试领域特定推理的新方法。
Jun, 2024
通过大型语言模型驱动的我们的文本到 SQL 生成管道的设计和实现解决了数据分析师高复杂度 SQL 查询的支持、低延迟的即席查询需求,以及对领域特定术语和实践的理解的挑战。
Jun, 2024
自然语言处理引起了用户与表格数据交互方式的革命,通过更直观、基于语言的界面,从传统的查询语言和手动绘图转变。大语言模型(LLMs)如 ChatGPT 及其后续模型进一步推进了这一领域,为自然语言处理技术开辟了新的途径。本研究综述了面向表格数据查询与可视化的自然语言界面,该界面允许用户使用自然语言查询与数据进行交互。我们介绍了这些界面背后的基本概念和技术,特别关注实现自然语言到 SQL 查询或数据可视化命令的语义解析技术。接着,我们从数据集、方法论、评估指标和系统设计等角度探讨了文本到 SQL 和文本到可视化问题的最新进展。这包括深入研究了 LLMs 的影响,突出了它们的优势、限制和未来改进的潜力。通过本综述,我们旨在为对开发和应用大语言模型时代的数据交互自然语言界面感兴趣的研究人员和实践者提供一条路线图。
Oct, 2023
本文提出了一种新方法 TypeSQL,通过将问题转换为插槽填充任务,并利用类型信息来更好地理解自然语言问题中的稀有实体和数字,从而实现了通过自然语言与关系型数据库进行交互。在 WikiSQL 数据集上测试该方法,比现有技术提高了 5.5%的性能。同时,利用数据库内容进行访问可以显著提高用户查询的性能,TypeSQL 的准确度为 82.6%,相对于之前的内容敏感模型提高了 17.5%。
Apr, 2018