跨域文本到 SQL 解析中的基于层次化 SQL 到问题生成的数据增强

Mar, 2021

跨域文本到 SQL 解析中的基于层次化 SQL 到问题生成的数据增强

Data Augmentation with Hierarchical SQL-to-Question Generation for Cross-domain Text-to-SQL Parsing

Kun Wu, Lijie Wang, Zhenghua Li, Ao Zhang, Xinyan Xiao...

TL;DR该论文通过设计一个简单而有效的数据增强框架，提出了一种层次化的 SQL 转自然语言问题生成模型，以及一种简单的采样策略来显著提高训练效率。在三个跨领域数据集上的实验表明，其方法可以一贯地改善表现，并且层次化生成组件是改善的关键。

Abstract

data augmentation has attracted a lot of research attention in the deep learning era for its ability in alleviating data sparseness. The lack of labeled data for unseen evaluation databases is exactly the major challenge for →

data augmentation cross-domain text-to-sql parsing sql-to-question generation training efficiency hierarchical generation

发现论文，激发创造

通过增加自然语言变化提升语义解析的泛化能力

使用数据增强来增强文本到 SQL 解析器对自然语言变化的鲁棒性，通过大型语言模型生成更真实和多样化的问题，从而在评估集合中实现显著的改进。

Feb, 2024

从 SQL 查询中生成问题改善了神经语义解析

本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法，使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器，并发现语义解析器的准确性和训练数据量之间存在对数关系。

Aug, 2018

面向开放域问答的混合文本和表格证据的双重阅读器 - 解析器

本文提出一种混合型框架，将文本和表格式证据作为输入，根据问题生成直接答案或 SQL 查询，并在几个开放领域问题回答（ODQA）数据集上表现出了明显优于基线模型的表现。在详细的分析中，证明生成结构化 SQL 查询将始终带来收益，尤其是对于那些需要复杂推理的问题。这是第一个将 Text2SQL 应用于 ODQA 任务的论文。

Aug, 2021

基于编辑的 SQL 查询生成技术：针对跨领域上下文相关问题

本研究提出了一种基于编辑机制的交互式文本到 SQL 生成方法，通过利用序列级的生成结果，结合上下文以及表结构信息来提高生成质量，并在 SParC 数据集上实现了优于当前最先进方法的生成效果。

Sep, 2019

文本到 SQL 解析中合成高质量数据的重要性

本文提出了一种新颖的数据合成框架，其中包括来自模式的关键关系、强类型和基于模式距离的列抽样，并采用了 SQL-to-text 任务的中间表示（IR），进一步提高了生成的自然语言问题的质量。实验证明，当现有强大的语义解析器在高质量的合成数据上进行预调整时，这些模型在流行的基准测试中的准确性得到了显着提高。

Dec, 2022

语义解析：基于语法和表格的 SQL 生成

利用生成模型将自然语言问题转换成 SQL 查询，并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验，将执行准确率从 69.0％提高到 74.4％。

Apr, 2018

通过问题分解进行弱监督的文本到 SQL 解析

本研究提出了一种弱监督方法来训练文本到 SQL 解析器，利用 QDMR 结构自动合成 SQL 查询来代替 NL-SQL 注释，结果表明弱监督模型表现与有注释的 NL-SQL 数据训练模型相当，免除 SQL 注释。

Dec, 2021

QDA-SQL：问题增强对话增强的多轮文本到 SQL

提出了一种名为 QDA-SQL 的新型数据增强方法，通过使用 LLMs 生成多种类型的多轮问答对，以提高针对复杂多轮 Text-to-SQL 任务的 LLMs 性能。实验证明，QDA-SQL 可以使经过微调的模型在 SQL 语句准确性方面表现更好，并提高它们处理复杂不可回答问题的能力。

Jun, 2024

探索跨领域文本到 SQL 泛化的未被充分利用的限制

在研究神经网络将文本描述翻译成 SQL 查询方面，在零射跨域设置下取得了显著进展，但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK，用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中，我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本，并证明当样本需要这种领域知识时，预测准确率显著下降，即使该领域知识出现在训练集中，模型对相关训练样本的预测仍然正确。

Sep, 2021

通用且鲁棒的文本到 SQL 解析

研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性，提出 TKK framework 用于学习 text-to-SQL parsing，该框架在多个测试数据集上表现出了显著的效果。

Oct, 2022