中文 SQL 语义解析的试点研究

EMNLPSep, 2019

A Pilot Study for Chinese SQL Semantic Parsing

Qingkai Min, Yuefeng Shi, Yue Zhang

TL;DR构建了一个针对汉语的跨领域 SQL 语义解析数据集，研究使用基于字符和基于词汇的编码器以及不同的嵌入方案来进行语义解析，结果表明基于词汇的语义解析器容易出现分词错误，并且跨语言的词嵌入对于文本到 SQL 有用。

Abstract

The task of semantic parsing is highly useful for dialogue and question answering systems. Many datasets have been proposed to map natural language text into SQL, among which the recent Spider dataset provides cross-domain samples with multiple tables and complex queries. We build a Sp

semantic parsing dataset construction chinese language word-based encoder cross-lingual word embeddings

发现论文，激发创造

越南文文本到 SQL 语义分析的实验研究

本研究针对语义解析这一重要的自然语言处理任务，提出了针对越南语的首个公共大规模 Text-to-SQL 语义解析数据集，并在该数据集上评估了两种强大的语义解析基线，通过比较不同配置条件发现自动越南语词语分割、来自越南神经依存句法分析器的潜在句法特征等都能够有效提高语义解析的匹配度，而针对越南语的单语言模型 PhoBERT 更胜于近期最佳的多语言模型 XLM-R。

Oct, 2020

MultiSpider：旨在基准测试多语言文本到 SQL 语义解析

本文介绍了 MultiSpider 数据集与 SAVe 框架，MultiSpider 数据集覆盖 7 种语言，且文中进一步提出了各种语言下，text-to-SQL 语义解析所面临的词汇和结构上的挑战，导致非英语言的解析准确率下降了 6.1％，而 SAVe 框架则通过对 Schema 进行增强从而有助于提升解析的性能。

Dec, 2022

通过动态架构编码用自然语言纠正语义解析

提出了一种利用自然语言反馈进行语义解析更正的方法，通过将任务的语义和语法困难分离，只需一轮自然语言反馈即可将文本到 SQL 解析器的准确性提高 26％；同时表明 T5-base 模型能在无需训练的情况下，纠正 T5-large 模型的错误。

May, 2023

语义解析：基于语法和表格的 SQL 生成

利用生成模型将自然语言问题转换成 SQL 查询，并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验，将执行准确率从 69.0％提高到 74.4％。

Apr, 2018

使用细粒度查询理解提升文本转 SQL 语义解析

本文提出了一种基于标记级精细化查询理解的通用、模块化的神经语义分析框架，包括命名实体识别器（NER）、神经实体链接器（NEL）和神经语义解析器（NSP），该框架联合建模查询和数据库，并基于动态生成的语法合成基于树结构的 SQL 查询。实验证明，该模型在 SQUALL 数据集上的执行准确率达到了 56.8％，超过了现有技术水平 2.7％。

Sep, 2022

Spider: 复杂跨领域语义解析和文本到 SQL 任务的大规模人类标注数据集

介绍了 Spider 数据集，它是由 11 名大学生注释的大规模、复杂和跨领域的语义分析和文本到 SQL 数据集，涵盖了 200 个数据库中的 138 个不同领域，区别于以往单一数据库且训练集和测试集中使用相同程序的语义分析任务，需要模型具有良好的泛化能力适应新的 SQL 查询和新的数据库架构，经过实验发现最好的模型仅在数据库分割设置上达到了 12.4％的精准匹配准确度，因此结果提出了未来研究的深厚挑战。

Sep, 2018

基于模型的交互式语义解析：统一框架和文本到 SQL 的案例研究

本论文提出了一个新的交互式语义解析问题的统一形式，其中的目标是设计一个基于模型的智能代理。代理能够自主决定是否和何时需要人类干预，并生成自然语言的澄清问题，使用了世界模型并在两个 Text-to-SQL 数据集上得到了很好的效果。

Oct, 2019

通过增加自然语言变化提升语义解析的泛化能力

使用数据增强来增强文本到 SQL 解析器对自然语言变化的鲁棒性，通过大型语言模型生成更真实和多样化的问题，从而在评估集合中实现显著的改进。

Feb, 2024

从 SQL 查询中生成问题改善了神经语义解析

本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法，使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器，并发现语义解析器的准确性和训练数据量之间存在对数关系。

Aug, 2018

阿拉伯语文本到 SQL 的 Ar-Spider

在本文中，我们介绍了 Ar-Spider 1，即第一个阿拉伯跨域文本到 SQL 数据集。为了解决语言本质相关的问题，我们采用了两个基线模型 LGESQL 和 S2SQL，并提出了上下文相似性关系（CSR）方法，该方法显著提高了阿拉伯文本到 SQL 的整体性能。

Feb, 2024