解耦文本到 SQL 的 SQL 查询难度解析
该研究综述了文本到结构化查询语言解析的深度学习方法,介绍了单轮和多轮对话的文本到 SQL 解析语料库,阐明了预训练语言模型和现有方法,探讨了面临的挑战和未来发展方向。
Aug, 2022
研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性,提出 TKK framework 用于学习 text-to-SQL parsing,该框架在多个测试数据集上表现出了显著的效果。
Oct, 2022
本文提出了一种注入语法到问 - Schema 图编码器中用于 Text-to-SQL 解析器的方法 ——S$^2$SQL,它有效地利用了问题中的句法依赖信息来提高性能,并采用解耦约束来诱导多样化的关系边缘嵌入,实验结果在 Spider 和鲁棒性设置 Spider-Syn 上均表现优于所有现有方法,使性能在 Spider 排行榜上名列前茅。
Mar, 2022
利用模块化查询计划语言(QPL)将 SQL 查询分解为简单和规则的子查询,通过训练文本到 QPL 解析器,我们获得了对数据库模式敏感的数据检索问题分解器以及更易理解的语义解析器的输出。
Oct, 2023
本研究提出了一种新的分离式多轮对话文本转 SQL 框架,使用话语重写模型和单轮 Text-to-SQL 解释器来解决对多轮对话历史建模和数据稀疏性问题,在无标注的情况下表现优异。
Jun, 2021
本文提出了一种基于管道的 Text2SQL 方法 SPSQL,将任务分解为表选择、列选择、SQL 生成和值填充四个子任务,采用不同的数据格式以提高模型精度,并使用命名实体识别模块和数据增强进行优化,通过实验得出在市场业务数据上的 SPSQL 方法比端到端方法和其他管道方法表现更好。
May, 2023
本研究提出了一种弱监督方法来训练文本到 SQL 解析器,利用 QDMR 结构自动合成 SQL 查询来代替 NL-SQL 注释,结果表明弱监督模型表现与有注释的 NL-SQL 数据训练模型相当,免除 SQL 注释。
Dec, 2021
研究了如何将复杂的文本到 SQL 任务分解为较小的子任务,从而显著提高大型语言模型(LLMs)在推理过程中的性能,证明了将 SQL 查询分解为子问题并将这些子问题的解决方案提供给 LLMs 可以显著提高性能。在三个 LLMs 上的实验表明,此方法始终将性能提高约 10%,推动 LLMs 的准确性接近最先进水平,甚至超过用于持有 Spider 数据集的大型精调模型。
Apr, 2023
本文旨在研究文本到 SQL 的自然语言处理问题中的有歧义问题和无法回答问题,并总结为 6 个特征类别。其次,提出了一个简单而高效的计数事实例子生成方法,用于自动生成有歧义和无法回答的文本到 SQL 实例。进一步提出了一个基于弱监督模型 DTE (Detecting-Then-Explaining) ,用于错误检测、定位和解释。实验结果表明,该模型在真实世界的例子和生成的例子上比各种基线模型都要好。
Dec, 2022