SeSQL:又一个大规模中文会话级文本到 SQL 数据集
本文研究基于自然语言理解的语义解析数据集,提出了一个包含真实用例中语句与 SQL 的对应关系的 SEDE 数据集,并展示该数据集所带来的挑战与实用性,进一步表明针对真实用例的数据集更适合进行语义解析任务的评估。
Jun, 2021
本文介绍了 TableQA dataset 及其挑战性和必要性,探讨了解决不同条件值表述和表格外查询的问题的两种基于表格知识的方法,并给出实验结果。
Jun, 2020
本文介绍了交叉架构文本到 SQL 任务,并提出了 CrosS-Schema 中文文本到 SQL 数据集,用于研究不同医疗系统中的 SQL 查询生成。数据集扩展到 19 个数据库,29,280 个数据样本,经过基准测试并公开共享。
May, 2023
构建了一个针对汉语的跨领域 SQL 语义解析数据集,研究使用基于字符和基于词汇的编码器以及不同的嵌入方案来进行语义解析,结果表明基于词汇的语义解析器容易出现分词错误,并且跨语言的词嵌入对于文本到 SQL 有用。
Sep, 2019
本文介绍了 MultiSpider 数据集与 SAVe 框架,MultiSpider 数据集覆盖 7 种语言,且文中进一步提出了各种语言下,text-to-SQL 语义解析所面临的词汇和结构上的挑战,导致非英语言的解析准确率下降了 6.1%,而 SAVe 框架则通过对 Schema 进行增强从而有助于提升解析的性能。
Dec, 2022
本研究提出了 CATS 数据集,它是一个实用的基于表格问答系统的大规模高质量的答案到描述的中文数据集,并通过提出统一图转换方法,将这一任务转化为图到文本问题,以建立输入 SQL 和表之间的语义对齐。实验结果表明了我们提出的方法的有效性,并进一步分析了 CATS 数据集的质量和挑战。
Jun, 2023
本研究介绍了 EHR-SeqSQL,这是一个面向电子健康记录(EHR)数据库的新颖的顺序文本到 SQL 的数据集。EHR-SeqSQL 旨在解决文本到 SQL 解析中关键且尚未充分探索的方面:互动性、组合性和效率。通过我们的实验证明了多轮方法在学习组合性方面优于单轮方法。此外,我们的数据集将特别设计的记号整合进 SQL 查询以提高执行效率。通过 EHR-SeqSQL,我们旨在弥合文本到 SQL 领域的实际需求和学术研究之间的差距。
May, 2024
给定一份新的大规模文本转 SQL 数据集(BookSQL),研究作者通过实验与分析现有的最先进模型,发现在会计和金融领域存在显著的性能差距,进而指出有需要开发更专注于该领域的模型。
Jun, 2024
在本文中,我们介绍了 Ar-Spider 1,即第一个阿拉伯跨域文本到 SQL 数据集。为了解决语言本质相关的问题,我们采用了两个基线模型 LGESQL 和 S2SQL,并提出了上下文相似性关系(CSR)方法,该方法显著提高了阿拉伯文本到 SQL 的整体性能。
Feb, 2024
本研究针对语义解析这一重要的自然语言处理任务,提出了针对越南语的首个公共大规模 Text-to-SQL 语义解析数据集,并在该数据集上评估了两种强大的语义解析基线,通过比较不同配置条件发现自动越南语词语分割、来自越南神经依存句法分析器的潜在句法特征等都能够有效提高语义解析的匹配度,而针对越南语的单语言模型 PhoBERT 更胜于近期最佳的多语言模型 XLM-R。
Oct, 2020