通过数据库模式修剪改进自我关注的多语言 SQL 翻译器
通过使用自我关联,让编码器理解表格和列之间的关系,以及将该信息使用在问题的解释过程中,使得神经编码器 - 解码器系统能够在 SQL 查询的实现上具有较好的泛化性,从而在 Spider 数据集上获得 42.94% 的精确匹配准确率。
Jun, 2019
本文介绍了 MultiSpider 数据集与 SAVe 框架,MultiSpider 数据集覆盖 7 种语言,且文中进一步提出了各种语言下,text-to-SQL 语义解析所面临的词汇和结构上的挑战,导致非英语言的解析准确率下降了 6.1%,而 SAVe 框架则通过对 Schema 进行增强从而有助于提升解析的性能。
Dec, 2022
本文介绍了我们关于开发一种适用于处理长输入的多语言高效文本到文本转换器的工作,称为 mLongT5 (即在 LongT5 架构上构建并利用用于预训练 mT5 和 UL2 预训练任务的多语言数据集),我们评估了该模型在各种多语言摘要和问答任务上的表现,并与现有的多语言模型(如 mBART 或 M-BERT)进行了比较,表明 mLongT5 相对于这些模型具有更强的性能。
May, 2023
该研究使用基于关系感知自注意机制的统一框架,解决将自然语言问题转换为 SQL 查询中出现的通用性问题,包括编码数据库关系,建立数据库列和查询的链接,以及特征表示。在 Spider 数据集上,该框架将的精确匹配准确度提高到 57.2%,优于其最好的对手 8.7%的绝对改进,并在 BERT 的支持下,实现了 65.6%的性能,成为了新的最佳表现,同时也在模型对数据库链接和对齐的理解方面得到了定性改善。
Nov, 2019
该研究通过使用大型语言模型(LLMs)来进行文本到 SQL 程序合成的各种方法以及相关的结果和见解,通过使用流行的 Text-to-SQL 数据集(spider)输入自然语言问题和数据库模式并生成正确的 SQL SELECT 查询。通过细调 WizardLM 的 WizardCoder-15B 模型和 fine-tuning gpt-3.5-turbo-16k(Few-shot)+ gpt-4-turbo(Zero-shot error correction)的方式,查询的执行准确率达到了较高的 82.1%。大部分错误查询可以归为七个不同的类别,这揭示了 LLM 程序合成的瑕疵以及可改进的方向。
Jan, 2024
我们提出了一种更适应性更强的提示方法,通过查询重写和 SQL 增强来提高 Text-to-SQL 模型的性能,并在商业数据集上实验证明了显著的性能改善。
Oct, 2023
传统的文本到 SQL 解析器在合成涉及多个表格或列的复杂 SQL 查询方面表现不佳,为了解决这个问题,我们提出了一种面向模式的多任务学习框架(名为 MTSQL)来处理复杂的 SQL 查询。通过设计一个模式链接鉴别器模块来区分有效的问题 - 模式关联,明确指示编码器通过特殊的链接关系来增强对齐质量。在解码器方面,我们定义了 6 种关系类型来描述表格和列之间的连接,并引入以运算符为中心的三元抽取器来识别那些与预定义关系相关的模式项。此外,我们通过预测的三元组建立了一组语法约束规则集,用于在 SQL 生成过程中过滤适当的 SQL 运算符和模式项。在跨领域的具有挑战性的文本到 SQL 基准测试 Spider 上,实验结果表明 MTSQL 比基线方法更有效,特别是在极端困难的场景中。此外,进一步的分析验证了我们的方法在处理复杂 SQL 查询方面的有希望的改进。
Mar, 2024
该研究使用多语言 BART 模型来研究将葡萄牙语问题翻译为 SQL 查询时的技术和现象,证明使用原始和翻译的训练数据集的多语言 BART 模型在葡萄牙语测试数据集上的准确率可以达到 83%,对于使用非英语语言进行机器学习的研究者具有一定的参考价值。
Oct, 2021
研究了如何将复杂的文本到 SQL 任务分解为较小的子任务,从而显著提高大型语言模型(LLMs)在推理过程中的性能,证明了将 SQL 查询分解为子问题并将这些子问题的解决方案提供给 LLMs 可以显著提高性能。在三个 LLMs 上的实验表明,此方法始终将性能提高约 10%,推动 LLMs 的准确性接近最先进水平,甚至超过用于持有 Spider 数据集的大型精调模型。
Apr, 2023
本研究考虑将自然语言转换成 SQL,用于关系数据库的数据检索。我们提出了一种新的编码 - 解码框架,包括新的语义特征和语法感知状态等新方法。实证评估结果表明,我们的方法在真实世界的数据库和查询上明显优于现有技术。
Nov, 2017