带执行引导的 Text-to-SQL 生成的鲁棒性
本文提出了一种处理 neural text-to-SQL models 中编写语法的复杂性的技术,从而生成 schema-dependent grammar,对 ATIS 和 Spider 两个挑战性的 text-to-SQL 数据集进行分析,显示可以减少 14-18% 的相对误差。
May, 2019
利用生成模型将自然语言问题转换成 SQL 查询,并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验,将执行准确率从 69.0%提高到 74.4%。
Apr, 2018
本篇论文提出了一种基于 Schema Dependency 的多任务 Text-to-SQL 模型(SDSQL),用于有效捕获问题和架构之间的交互,从而减少数据库执行所拖延的推理时间,具有更好的可扩展性和更高的性能。
Mar, 2021
提出了一种利用自然语言反馈进行语义解析更正的方法,通过将任务的语义和语法困难分离,只需一轮自然语言反馈即可将文本到 SQL 解析器的准确性提高 26%;同时表明 T5-base 模型能在无需训练的情况下,纠正 T5-large 模型的错误。
May, 2023
本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法,使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器,并发现语义解析器的准确性和训练数据量之间存在对数关系。
Aug, 2018
本文提出了一种基于标记级精细化查询理解的通用、模块化的神经语义分析框架,包括命名实体识别器(NER)、神经实体链接器(NEL)和神经语义解析器(NSP),该框架联合建模查询和数据库,并基于动态生成的语法合成基于树结构的 SQL 查询。实验证明,该模型在 SQUALL 数据集上的执行准确率达到了 56.8%,超过了现有技术水平 2.7%。
Sep, 2022
本文提出了一种注入语法到问 - Schema 图编码器中用于 Text-to-SQL 解析器的方法 ——S$^2$SQL,它有效地利用了问题中的句法依赖信息来提高性能,并采用解耦约束来诱导多样化的关系边缘嵌入,实验结果在 Spider 和鲁棒性设置 Spider-Syn 上均表现优于所有现有方法,使性能在 Spider 排行榜上名列前茅。
Mar, 2022
本研究针对语义解析器在零样本学习中难以正确选择新数据库常数集的问题,提出一种全局推理数据库常数集的解析器,采用图神经网络的消息传递机制,考虑问题的情境信息,软选择一部分数据库常数集,并通过训练模型根据数据库常数与问题单词的全局匹配度对解析结果排序。在面向包含复杂数据库的零样本语义解析数据集 Spider 中,我们将该方法应用于当前最先进模型,将准确率从 39.4%提高到 47.4%。
Aug, 2019
通过 AmbiQT 基准测试,我们提出了一种解决自然语言查询中的 SQL 歧义性问题的新的解码算法 LogicalBeam,它通过计划模板生成和受限填充的方式在 SQL 语义空间中导航,并在排名前 k 的结果中生成所有候选 SQL,相比于现有模型,LogicalBeam 在生成 SQL 方面表现效果提升了最多 2.5 倍,并且在 SPIDER 和 Kaggle DBQA 上的 Top-5 精确度和执行匹配精确度也有所改善。
Oct, 2023
本文介绍了一种提高语法解析器的性能的方法,通过采用基于从句的并行解码和对齐丢失来增强两个高性能的语法解析器 RATSQL 和 LGESQL,在准确性和解码速度方面都取得了一致的提升。
Apr, 2022