通过问题分解进行弱监督的文本到 SQL 解析

ACLDec, 2021

通过问题分解进行弱监督的文本到 SQL 解析

Weakly Supervised Text-to-SQL Parsing through Question Decomposition

Tomer Wolfson, Daniel Deutch, Jonathan Berant

TL;DR本研究提出了一种弱监督方法来训练文本到 SQL 解析器，利用 QDMR 结构自动合成 SQL 查询来代替 NL-SQL 注释，结果表明弱监督模型表现与有注释的 NL-SQL 数据训练模型相当，免除 SQL 注释。

Abstract

text-to-sql parsers are crucial in enabling non-experts to effortlessly query relational data. Training such parsers, by contrast, generally requires expertise in annotating natural language (NL) utterances with corresponding SQL queries. In this work, we propose a →

text-to-sql parsers weak supervision qdmr benchmark datasets zero sql annotations

发现论文，激发创造

文本转 SQL 解析调查：概念，方法和未来方向

该研究综述了文本到结构化查询语言解析的深度学习方法，介绍了单轮和多轮对话的文本到 SQL 解析语料库，阐明了预训练语言模型和现有方法，探讨了面临的挑战和未来发展方向。

Aug, 2022

文本到 SQL 解析中的问题和 SQL 的语义分解

利用模块化查询计划语言（QPL）将 SQL 查询分解为简单和规则的子查询，通过训练文本到 QPL 解析器，我们获得了对数据库模式敏感的数据检索问题分解器以及更易理解的语义解析器的输出。

Oct, 2023

从 SQL 查询中生成问题改善了神经语义解析

本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法，使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器，并发现语义解析器的准确性和训练数据量之间存在对数关系。

Aug, 2018

通过 SQL 查询分解训练表格问答

通过模仿 SQL 类似的代数操作的执行流程，本研究展示了提供中间监督步骤的学习方法，从而实现了更强的泛化和结构化推理能力，该研究填补了语义解析与直接回答方法之间的差距，并为生成式架构应该预测哪些类型的操作或应由外部算法优先执行提供了有用的见解。

Feb, 2024

通用且鲁棒的文本到 SQL 解析

研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性，提出 TKK framework 用于学习 text-to-SQL parsing，该框架在多个测试数据集上表现出了显著的效果。

Oct, 2022

使用细粒度查询理解提升文本转 SQL 语义解析

本文提出了一种基于标记级精细化查询理解的通用、模块化的神经语义分析框架，包括命名实体识别器（NER）、神经实体链接器（NEL）和神经语义解析器（NSP），该框架联合建模查询和数据库，并基于动态生成的语法合成基于树结构的 SQL 查询。实验证明，该模型在 SQUALL 数据集上的执行准确率达到了 56.8％，超过了现有技术水平 2.7％。

Sep, 2022

融合弱监督和主动监督用于语义解析

该研究论文针对通过自然语言指令进行解析的语义解析器，在利用弱监督学习时引入主动学习以提高模型性能的问题进行了研究，并在两个数据集上进行了实验。

Nov, 2019

跨域文本到 SQL 解析中的基于层次化 SQL 到问题生成的数据增强

该论文通过设计一个简单而有效的数据增强框架，提出了一种层次化的 SQL 转自然语言问题生成模型，以及一种简单的采样策略来显著提高训练效率。在三个跨领域数据集上的实验表明，其方法可以一贯地改善表现，并且层次化生成组件是改善的关键。

Mar, 2021

DIN-SQL：基于上下文分解的自我修正文本到 SQL 学习

研究了如何将复杂的文本到 SQL 任务分解为较小的子任务，从而显著提高大型语言模型（LLMs）在推理过程中的性能，证明了将 SQL 查询分解为子问题并将这些子问题的解决方案提供给 LLMs 可以显著提高性能。在三个 LLMs 上的实验表明，此方法始终将性能提高约 10％，推动 LLMs 的准确性接近最先进水平，甚至超过用于持有 Spider 数据集的大型精调模型。

Apr, 2023

处理模糊和无法回答的问题：文本到 SQL

本文旨在研究文本到 SQL 的自然语言处理问题中的有歧义问题和无法回答问题，并总结为 6 个特征类别。其次，提出了一个简单而高效的计数事实例子生成方法，用于自动生成有歧义和无法回答的文本到 SQL 实例。进一步提出了一个基于弱监督模型 DTE (Detecting-Then-Explaining) ，用于错误检测、定位和解释。实验结果表明，该模型在真实世界的例子和生成的例子上比各种基线模型都要好。

Dec, 2022