通过问题分解进行弱监督的文本到 SQL 解析
该研究综述了文本到结构化查询语言解析的深度学习方法,介绍了单轮和多轮对话的文本到 SQL 解析语料库,阐明了预训练语言模型和现有方法,探讨了面临的挑战和未来发展方向。
Aug, 2022
利用模块化查询计划语言(QPL)将 SQL 查询分解为简单和规则的子查询,通过训练文本到 QPL 解析器,我们获得了对数据库模式敏感的数据检索问题分解器以及更易理解的语义解析器的输出。
Oct, 2023
本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法,使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器,并发现语义解析器的准确性和训练数据量之间存在对数关系。
Aug, 2018
通过模仿 SQL 类似的代数操作的执行流程,本研究展示了提供中间监督步骤的学习方法,从而实现了更强的泛化和结构化推理能力,该研究填补了语义解析与直接回答方法之间的差距,并为生成式架构应该预测哪些类型的操作或应由外部算法优先执行提供了有用的见解。
Feb, 2024
研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性,提出 TKK framework 用于学习 text-to-SQL parsing,该框架在多个测试数据集上表现出了显著的效果。
Oct, 2022
本文提出了一种基于标记级精细化查询理解的通用、模块化的神经语义分析框架,包括命名实体识别器(NER)、神经实体链接器(NEL)和神经语义解析器(NSP),该框架联合建模查询和数据库,并基于动态生成的语法合成基于树结构的 SQL 查询。实验证明,该模型在 SQUALL 数据集上的执行准确率达到了 56.8%,超过了现有技术水平 2.7%。
Sep, 2022
该论文通过设计一个简单而有效的数据增强框架,提出了一种层次化的 SQL 转自然语言问题生成模型,以及一种简单的采样策略来显著提高训练效率。在三个跨领域数据集上的实验表明,其方法可以一贯地改善表现,并且层次化生成组件是改善的关键。
Mar, 2021
研究了如何将复杂的文本到 SQL 任务分解为较小的子任务,从而显著提高大型语言模型(LLMs)在推理过程中的性能,证明了将 SQL 查询分解为子问题并将这些子问题的解决方案提供给 LLMs 可以显著提高性能。在三个 LLMs 上的实验表明,此方法始终将性能提高约 10%,推动 LLMs 的准确性接近最先进水平,甚至超过用于持有 Spider 数据集的大型精调模型。
Apr, 2023
本文旨在研究文本到 SQL 的自然语言处理问题中的有歧义问题和无法回答问题,并总结为 6 个特征类别。其次,提出了一个简单而高效的计数事实例子生成方法,用于自动生成有歧义和无法回答的文本到 SQL 实例。进一步提出了一个基于弱监督模型 DTE (Detecting-Then-Explaining) ,用于错误检测、定位和解释。实验结果表明,该模型在真实世界的例子和生成的例子上比各种基线模型都要好。
Dec, 2022