中文 SQL 语义解析的试点研究
本研究针对语义解析这一重要的自然语言处理任务,提出了针对越南语的首个公共大规模 Text-to-SQL 语义解析数据集,并在该数据集上评估了两种强大的语义解析基线,通过比较不同配置条件发现自动越南语词语分割、来自越南神经依存句法分析器的潜在句法特征等都能够有效提高语义解析的匹配度,而针对越南语的单语言模型 PhoBERT 更胜于近期最佳的多语言模型 XLM-R。
Oct, 2020
本文介绍了 MultiSpider 数据集与 SAVe 框架,MultiSpider 数据集覆盖 7 种语言,且文中进一步提出了各种语言下,text-to-SQL 语义解析所面临的词汇和结构上的挑战,导致非英语言的解析准确率下降了 6.1%,而 SAVe 框架则通过对 Schema 进行增强从而有助于提升解析的性能。
Dec, 2022
提出了一种利用自然语言反馈进行语义解析更正的方法,通过将任务的语义和语法困难分离,只需一轮自然语言反馈即可将文本到 SQL 解析器的准确性提高 26%;同时表明 T5-base 模型能在无需训练的情况下,纠正 T5-large 模型的错误。
May, 2023
利用生成模型将自然语言问题转换成 SQL 查询,并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验,将执行准确率从 69.0%提高到 74.4%。
Apr, 2018
本文提出了一种基于标记级精细化查询理解的通用、模块化的神经语义分析框架,包括命名实体识别器(NER)、神经实体链接器(NEL)和神经语义解析器(NSP),该框架联合建模查询和数据库,并基于动态生成的语法合成基于树结构的 SQL 查询。实验证明,该模型在 SQUALL 数据集上的执行准确率达到了 56.8%,超过了现有技术水平 2.7%。
Sep, 2022
介绍了 Spider 数据集,它是由 11 名大学生注释的大规模、复杂和跨领域的语义分析和文本到 SQL 数据集,涵盖了 200 个数据库中的 138 个不同领域,区别于以往单一数据库且训练集和测试集中使用相同程序的语义分析任务,需要模型具有良好的泛化能力适应新的 SQL 查询和新的数据库架构,经过实验发现最好的模型仅在数据库分割设置上达到了 12.4%的精准匹配准确度,因此结果提出了未来研究的深厚挑战。
Sep, 2018
本论文提出了一个新的交互式语义解析问题的统一形式,其中的目标是设计一个基于模型的智能代理。代理能够自主决定是否和何时需要人类干预,并生成自然语言的澄清问题,使用了世界模型并在两个 Text-to-SQL 数据集上得到了很好的效果。
Oct, 2019
本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法,使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器,并发现语义解析器的准确性和训练数据量之间存在对数关系。
Aug, 2018
在本文中,我们介绍了 Ar-Spider 1,即第一个阿拉伯跨域文本到 SQL 数据集。为了解决语言本质相关的问题,我们采用了两个基线模型 LGESQL 和 S2SQL,并提出了上下文相似性关系(CSR)方法,该方法显著提高了阿拉伯文本到 SQL 的整体性能。
Feb, 2024