DuoRAT: 迈向更简单的文本到 SQL 模型
该研究使用基于关系感知自注意机制的统一框架,解决将自然语言问题转换为 SQL 查询中出现的通用性问题,包括编码数据库关系,建立数据库列和查询的链接,以及特征表示。在 Spider 数据集上,该框架将的精确匹配准确度提高到 57.2%,优于其最好的对手 8.7%的绝对改进,并在 BERT 的支持下,实现了 65.6%的性能,成为了新的最佳表现,同时也在模型对数据库链接和对齐的理解方面得到了定性改善。
Nov, 2019
使用关系结构提高 Transformer seq2seq 模型在文本转 SQL 中的效果,实验结果表明在多个数据集中取得了最优结果。
May, 2022
本文提出一种判别式 re-ranker 方法,用于在 generative text-to-SQL 模型的预测输出中提取最佳 SQL 查询,从而提高表现。作为 schema agnostic BERT 细调分类器构建 re-ranker。在分析不同查询难度级别的 text-to-SQL 和 re-ranker 模型的相对优势的基础上,建议如何结合这两种模型以获得最佳表现,我们通过将其应用于两种最先进的 text-to-SQL 模型,证明了 re-ranker 的有效性,在编写本文时在 Spider 排行榜上排名前四。
Feb, 2020
该研究使用多语言 BART 模型来研究将葡萄牙语问题翻译为 SQL 查询时的技术和现象,证明使用原始和翻译的训练数据集的多语言 BART 模型在葡萄牙语测试数据集上的准确率可以达到 83%,对于使用非英语语言进行机器学习的研究者具有一定的参考价值。
Oct, 2021
本文研究了使用自然语言作为桥梁,通过有效访问数据库创建一个高效的文本到 SQL 模型,重点探讨了 24 个不同神经网络模型以及 11 个常用数据集的特点和局限性,最终讨论了 Text2SQL 技术在实现无缝数据查询方面的可能性。
Aug, 2022
本文提出了一种基于神经信息检索和重新排名的自动问答系统,利用包含 6.3M 问题和回答对的数据库,实现了开放域问答并超越了传统的非结构化文本或图形搜索方法,并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优,该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。
Mar, 2023
近期对于大型语言模型的研究取得了显著进展,特别是在将自然语言问题翻译为 SQL 查询方面的准确性能大幅提升。然而,对于实际部署中遇到的各种类型问题,包括无法回答的问题,这些文本到 SQL 模型的可靠性还知之甚少。为了探讨这个方面,我们提出了 TrustSQL,这是一个新的基准系统,旨在评估文本到 SQL 模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一:1)SQL 预测;2)不进行预测,无论是由于生成的 SQL 可能存在问题,还是面对无法回答的问题。为了对模型进行评估,我们探索了特定于该任务的各种建模方法,包括:1)为可回答性检测、SQL 生成和错误检测优化独立的模型,然后将它们集成到一个单一的流程中;2)开发一个统一的方法,优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分,表明解决这一挑战涉及到许多不同的研究领域,并为模型发展开辟了新的途径。然而,尽管有这么多的方法,但没有一种能够超越纯基准的可靠性性能,即放弃回答所有问题。
Mar, 2024
利用 IRNet 的神经方法,从文本向 SQL 转换的复杂性和跨领域性的角度入手,成功解决了大量领域外单词造成的列预测挑战,并在 Spider 基准测试中取得了 46.7%精度,比之前表现最佳的方法 “进步了 19.5%”,在 Spider 排行榜上位居第一。
May, 2019
基于物联网文本到 SQL 数据集,我们研究了如何从返回的数据中推断新信息,通过两阶段处理(查询和数据信息推断)可以改善文本到 SQL 的性能,并提供了测试领域特定推理的新方法。
Jun, 2024
基于一个实际的部署案例和真实用户提问数据,本研究评估了 Text-to-SQL 系统在不同数据模型下的健壮性,并探讨了语言模型的性能以及训练数据规模、预处理和后处理步骤对系统性能的影响。此外,研究还为研究社区提供了一个新的基准数据集,可评估针对不同数据模型的查询复杂度。
Feb, 2024