跨域文本到 SQL 解析中的基于层次化 SQL 到问题生成的数据增强
本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法,使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器,并发现语义解析器的准确性和训练数据量之间存在对数关系。
Aug, 2018
本文提出一种混合型框架,将文本和表格式证据作为输入,根据问题生成直接答案或 SQL 查询,并在几个开放领域问题回答(ODQA)数据集上表现出了明显优于基线模型的表现。在详细的分析中,证明生成结构化 SQL 查询将始终带来收益,尤其是对于那些需要复杂推理的问题。这是第一个将 Text2SQL 应用于 ODQA 任务的论文。
Aug, 2021
本研究提出了一种基于编辑机制的交互式文本到 SQL 生成方法,通过利用序列级的生成结果,结合上下文以及表结构信息来提高生成质量,并在 SParC 数据集上实现了优于当前最先进方法的生成效果。
Sep, 2019
本文提出了一种新颖的数据合成框架,其中包括来自模式的关键关系、强类型和基于模式距离的列抽样,并采用了 SQL-to-text 任务的中间表示(IR),进一步提高了生成的自然语言问题的质量。实验证明,当现有强大的语义解析器在高质量的合成数据上进行预调整时,这些模型在流行的基准测试中的准确性得到了显着提高。
Dec, 2022
利用生成模型将自然语言问题转换成 SQL 查询,并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验,将执行准确率从 69.0%提高到 74.4%。
Apr, 2018
本研究提出了一种弱监督方法来训练文本到 SQL 解析器,利用 QDMR 结构自动合成 SQL 查询来代替 NL-SQL 注释,结果表明弱监督模型表现与有注释的 NL-SQL 数据训练模型相当,免除 SQL 注释。
Dec, 2021
提出了一种名为 QDA-SQL 的新型数据增强方法,通过使用 LLMs 生成多种类型的多轮问答对,以提高针对复杂多轮 Text-to-SQL 任务的 LLMs 性能。实验证明,QDA-SQL 可以使经过微调的模型在 SQL 语句准确性方面表现更好,并提高它们处理复杂不可回答问题的能力。
Jun, 2024
在研究神经网络将文本描述翻译成 SQL 查询方面,在零射跨域设置下取得了显著进展,但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK,用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中,我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本,并证明当样本需要这种领域知识时,预测准确率显著下降,即使该领域知识出现在训练集中,模型对相关训练样本的预测仍然正确。
Sep, 2021
研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性,提出 TKK framework 用于学习 text-to-SQL parsing,该框架在多个测试数据集上表现出了显著的效果。
Oct, 2022