BookSQL:面向会计领域的大规模文本到 SQL 数据集
本文提出了一个名为 Bird 的大规模基准数据集,旨在填补现有基准测试数据集在数据库值、外部知识和 SQL 某些方面的不足。实验结果表明,在大型数据库的文本到 SQL 转换中,数据库值具有重要意义。同时,最先进的文本到 SQL 模型 ChatGPT,转换准确度仅为 40.08%,距离人类结果 92.96% 还有巨大的差距。
May, 2023
本文介绍了 TableQA dataset 及其挑战性和必要性,探讨了解决不同条件值表述和表格外查询的问题的两种基于表格知识的方法,并给出实验结果。
Jun, 2020
在研究神经网络将文本描述翻译成 SQL 查询方面,在零射跨域设置下取得了显著进展,但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK,用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中,我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本,并证明当样本需要这种领域知识时,预测准确率显著下降,即使该领域知识出现在训练集中,模型对相关训练样本的预测仍然正确。
Sep, 2021
该文回顾了 Text-to-SQL 在数据集、方法和评估方面的最新进展,总结了该领域所面临的挑战,并讨论了未来的研究方向,对于现有工作的快速访问和激励未来研究具有重要的指导意义。
Aug, 2022
本文研究了使用自然语言作为桥梁,通过有效访问数据库创建一个高效的文本到 SQL 模型,重点探讨了 24 个不同神经网络模型以及 11 个常用数据集的特点和局限性,最终讨论了 Text2SQL 技术在实现无缝数据查询方面的可能性。
Aug, 2022
基于一个实际的部署案例和真实用户提问数据,本研究评估了 Text-to-SQL 系统在不同数据模型下的健壮性,并探讨了语言模型的性能以及训练数据规模、预处理和后处理步骤对系统性能的影响。此外,研究还为研究社区提供了一个新的基准数据集,可评估针对不同数据模型的查询复杂度。
Feb, 2024
我们提出了一种更适应性更强的提示方法,通过查询重写和 SQL 增强来提高 Text-to-SQL 模型的性能,并在商业数据集上实验证明了显著的性能改善。
Oct, 2023
基于物联网文本到 SQL 数据集,我们研究了如何从返回的数据中推断新信息,通过两阶段处理(查询和数据信息推断)可以改善文本到 SQL 的性能,并提供了测试领域特定推理的新方法。
Jun, 2024
本文探讨了实现自然语言查询现实关系数据库的挑战,提出了一个新的跨领域评估数据集 KaggleDBQA,并通过引入数据库文档等隐含领域知识的方法,将现有模型的准确性提高了 13.2%。
Jun, 2021
本文提出了一种新方法 TypeSQL,通过将问题转换为插槽填充任务,并利用类型信息来更好地理解自然语言问题中的稀有实体和数字,从而实现了通过自然语言与关系型数据库进行交互。在 WikiSQL 数据集上测试该方法,比现有技术提高了 5.5%的性能。同时,利用数据库内容进行访问可以显著提高用户查询的性能,TypeSQL 的准确度为 82.6%,相对于之前的内容敏感模型提高了 17.5%。
Apr, 2018