通用且鲁棒的文本到 SQL 解析
该研究综述了文本到结构化查询语言解析的深度学习方法,介绍了单轮和多轮对话的文本到 SQL 解析语料库,阐明了预训练语言模型和现有方法,探讨了面临的挑战和未来发展方向。
Aug, 2022
该文研究了文本到 SQL 的组成归纳泛化问题,通过提出新的标准数据集 CoSQL-CG 和 SParC-CG,提出了一种基于 p-align 的改进方法,并证明了其有效性。
May, 2023
通过解耦 SQL 查询的难度分析问题和模式,我们引入了一种创新的基于 Text-to-SQL 的框架,将多难度任务简化为单一难度挑战,大大降低了语言模型的解析压力,并在 Spider dev 上实现了新的最新的性能。
Dec, 2023
本文提出了一种基于管道的 Text2SQL 方法 SPSQL,将任务分解为表选择、列选择、SQL 生成和值填充四个子任务,采用不同的数据格式以提高模型精度,并使用命名实体识别模块和数据增强进行优化,通过实验得出在市场业务数据上的 SPSQL 方法比端到端方法和其他管道方法表现更好。
May, 2023
本研究提出了一种弱监督方法来训练文本到 SQL 解析器,利用 QDMR 结构自动合成 SQL 查询来代替 NL-SQL 注释,结果表明弱监督模型表现与有注释的 NL-SQL 数据训练模型相当,免除 SQL 注释。
Dec, 2021
本文使用新的中文基准数据集 KnowSQL,提出了使用公式化知识库作为领域知识支持的重新分组(ReGrouP)框架来解决文本到 SQL 的知识密集问题,并在 KnowSQL 数据集上实现了 28.2%的整体性能提升。
Jan, 2023
在研究神经网络将文本描述翻译成 SQL 查询方面,在零射跨域设置下取得了显著进展,但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK,用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中,我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本,并证明当样本需要这种领域知识时,预测准确率显著下降,即使该领域知识出现在训练集中,模型对相关训练样本的预测仍然正确。
Sep, 2021
本文探讨了实现自然语言查询现实关系数据库的挑战,提出了一个新的跨领域评估数据集 KaggleDBQA,并通过引入数据库文档等隐含领域知识的方法,将现有模型的准确性提高了 13.2%。
Jun, 2021