研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性,提出 TKK framework 用于学习 text-to-SQL parsing,该框架在多个测试数据集上表现出了显著的效果。
Oct, 2022
使用数据增强来增强文本到 SQL 解析器对自然语言变化的鲁棒性,通过大型语言模型生成更真实和多样化的问题,从而在评估集合中实现显著的改进。
Feb, 2024
本文提出了一种处理 neural text-to-SQL models 中编写语法的复杂性的技术,从而生成 schema-dependent grammar,对 ATIS 和 Spider 两个挑战性的 text-to-SQL 数据集进行分析,显示可以减少 14-18% 的相对误差。
May, 2019
该文研究了文本到 SQL 的组成归纳泛化问题,通过提出新的标准数据集 CoSQL-CG 和 SParC-CG,提出了一种基于 p-align 的改进方法,并证明了其有效性。
May, 2023
该研究综述了文本到结构化查询语言解析的深度学习方法,介绍了单轮和多轮对话的文本到 SQL 解析语料库,阐明了预训练语言模型和现有方法,探讨了面临的挑战和未来发展方向。
Aug, 2022
本研究探讨了机器翻译和语义解析中的复合通用性问题,并发现神经机器翻译模型在句法结构的通用性上存在困难,而语义解析和机器翻译具有不同的性能趋势。
Jun, 2024
为了评估系统在现实世界中未见数据上的泛化能力,本文首先比较了人工生成和自动生成的问题,提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次,我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力,因此提出了评估未来工作的补充数据集划分。最后,我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难,并启发未来研究的有效衡量方法。
Jun, 2018
研究了神经序列到序列模型在自然生成的 SQL 任务中的泛化能力问题,并通过构建辅助任务并在 WikiSQL 数据集上的实验中证明其有效性。
Aug, 2019
本文提出了一种新颖的数据合成框架,其中包括来自模式的关键关系、强类型和基于模式距离的列抽样,并采用了 SQL-to-text 任务的中间表示(IR),进一步提高了生成的自然语言问题的质量。实验证明,当现有强大的语义解析器在高质量的合成数据上进行预调整时,这些模型在流行的基准测试中的准确性得到了显着提高。
Dec, 2022
该研究关注语言解析到 SQL 的过程,并提出了一种使用图神经网络对数据库模式进行编码的方法,在 Spider 数据集上得到了较高的解析准确率。