E-SQL: 通过问题增强实现直接架构链接的文本到SQL转换
利用T5模型进行文本转SQL,结合问题增值和自动生成的银标识训练数据,实现了较高的SQL执行精度,并接近基于逻辑形式的最新的具有SOTA性能系统。
Nov, 2020
本篇论文提出了一种基于Schema Dependency的多任务Text-to-SQL模型(SDSQL),用于有效捕获问题和架构之间的交互,从而减少数据库执行所拖延的推理时间,具有更好的可扩展性和更高的性能。
Mar, 2021
该文回顾了Text-to-SQL在数据集、方法和评估方面的最新进展,总结了该领域所面临的挑战,并讨论了未来的研究方向,对于现有工作的快速访问和激励未来研究具有重要的指导意义。
Aug, 2022
本论文介绍了一个名为 UNITE 的统一文本到SQL评估基准,其中包含来自 12 个以上领域的自然语言问题,来自 3.9K 多个 SQL 模式的查询以及 29K 个数据库,并比较了六种最新的 SOTA 文本到SQL解析器在这个基准上的表现,揭示了这些最先进的模型在组合泛化和鲁棒性问题上仍然存在困难。
May, 2023
本研究介绍一种名为CodeS的开源语言模型,旨在解决Text-to-SQL任务中现有限制,并通过增量预训练、模式构建和双向数据增强等方法提升了CodeS在SQL生成能力上的表现,并在多个数据集上取得了新的最先进准确性和鲁棒性。
Feb, 2024
该论文提出了一个两阶段的框架以增强当前基于大语言模型的自然语言到SQL系统的性能,首先引入了一种称为参考增强表示的新型提示表示方法,然后通过few-shot示范检索问题-SQL对来生成初步SQL,对初步SQL中的实体进行解析以进行模式链接,在第二阶段中,简化了提示的模式信息,最终使用跨不同语言模型的交叉一致性作为后细化模块,取得了在Spider基准上的新的最先进结果,执行准确率达到了87.6%。
Mar, 2024
根据自然语言问题(文本到SQL)生成准确的SQL是一个长期存在的问题,传统的文本到SQL系统使用人工工程和深度神经网络,而最近的大型语言模型(LLMs)已经展示出在自然语言理解方面的显著能力,因此,将LLM-based实现整合到文本到SQL研究中可以带来独特的机遇、挑战和解决方案。
Jun, 2024
大型语言模型在自然语言数据库查询方面取得了显著的进展,但在大型企业数据库中的性能下降。我们分析了这些环境中LLMs面临的挑战,并提出了一种新的解决方案,将LLMs在理解问题方面的能力与自动推理技术相结合以处理复杂的数据库约束。基于这些思想,我们开发了一个新的框架,在复杂基准测试中的零-shot文本到SQL方面胜过了现有技术。
Jul, 2024
本研究探讨了在文本到SQL管道中,模式链接的重要性及其局限性,特别是在使用最新的大型语言模型时。研究表明,现代模型能够在生成过程中识别相关的模式元素,无需显式的模式链接,从而提高查询生成的准确性。该方法在BIRD基准测试中实现了71.83%的执行准确率,取得了当时的第一名。
Aug, 2024
本研究探讨了当前文本到SQL流程中的模式链接问题,发现新一代大型语言模型能够在生成过程中有效使用相关模式元素,即使有大量无关元素存在。因此,当模式适应模型的上下文窗口时,我们的流程完全放弃模式链接,以减少所需模式元素过滤带来的问题,并通过增强、选择和校正等技术提升生成准确性,最终在BIRD基准测试中取得71.83%的准确率。
Aug, 2024