通过数据库模式修剪改进自我关注的多语言 SQL 翻译器

Jun, 2023

通过数据库模式修剪改进自我关注的多语言 SQL 翻译器

A Multilingual Translator to SQL with Database Schema Pruning to Improve Self-Attention

Marcelo Archanjo Jose, Fabio Gagliardi Cozman

TL;DR本文提出了一种技术，使长文本序列可以通过 transformers 处理，这对于自然语言到 SQL 查询的翻译非常有用，该技术包括训练过程、数据库架构修剪和多语言方法。

Abstract

Long sequences of text are challenging in the context of transformers, due to quadratic memory increase in the self-attention mechanism. As this issue directly affects the translation from natural language to sql querie

transformers sql queries training process database schema pruning multilingual approach

发现论文，激发创造

使用关系感知自注意力编码数据库模式，用于文本到 SQL 解析器

通过使用自我关联，让编码器理解表格和列之间的关系，以及将该信息使用在问题的解释过程中，使得神经编码器 - 解码器系统能够在 SQL 查询的实现上具有较好的泛化性，从而在 Spider 数据集上获得 42.94% 的精确匹配准确率。

Jun, 2019

MultiSpider：旨在基准测试多语言文本到 SQL 语义解析

本文介绍了 MultiSpider 数据集与 SAVe 框架，MultiSpider 数据集覆盖 7 种语言，且文中进一步提出了各种语言下，text-to-SQL 语义解析所面临的词汇和结构上的挑战，导致非英语言的解析准确率下降了 6.1％，而 SAVe 框架则通过对 Schema 进行增强从而有助于提升解析的性能。

Dec, 2022

mLongT5：针对更长序列的多语言高效文本转换器

本文介绍了我们关于开发一种适用于处理长输入的多语言高效文本到文本转换器的工作，称为 mLongT5 (即在 LongT5 架构上构建并利用用于预训练 mT5 和 UL2 预训练任务的多语言数据集)，我们评估了该模型在各种多语言摘要和问答任务上的表现，并与现有的多语言模型（如 mBART 或 M-BERT）进行了比较，表明 mLongT5 相对于这些模型具有更强的性能。

May, 2023

RAT-SQL：基于关系感知的文本 - SQL 解析器的模式编码和链接

该研究使用基于关系感知自注意机制的统一框架，解决将自然语言问题转换为 SQL 查询中出现的通用性问题，包括编码数据库关系，建立数据库列和查询的链接，以及特征表示。在 Spider 数据集上，该框架将的精确匹配准确度提高到 57.2％，优于其最好的对手 8.7％的绝对改进，并在 BERT 的支持下，实现了 65.6％的性能，成为了新的最佳表现，同时也在模型对数据库链接和对齐的理解方面得到了定性改善。

Nov, 2019

大型语言模型在文本转 SQL 合成中的有效性分析

该研究通过使用大型语言模型（LLMs）来进行文本到 SQL 程序合成的各种方法以及相关的结果和见解，通过使用流行的 Text-to-SQL 数据集（spider）输入自然语言问题和数据库模式并生成正确的 SQL SELECT 查询。通过细调 WizardLM 的 WizardCoder-15B 模型和 fine-tuning gpt-3.5-turbo-16k（Few-shot）+ gpt-4-turbo（Zero-shot error correction）的方式，查询的执行准确率达到了较高的 82.1%。大部分错误查询可以归为七个不同的类别，这揭示了 LLM 程序合成的瑕疵以及可改进的方向。

Jan, 2024

基于大型语言模型的文本到 SQL、文本到 Python 和文本到函数的重新增强 —— 在交通领域中的真实应用

我们提出了一种更适应性更强的提示方法，通过查询重写和 SQL 增强来提高 Text-to-SQL 模型的性能，并在商业数据集上实验证明了显著的性能改善。

Oct, 2023

面向复杂文本到 SQL 的模式感知多任务学习

传统的文本到 SQL 解析器在合成涉及多个表格或列的复杂 SQL 查询方面表现不佳，为了解决这个问题，我们提出了一种面向模式的多任务学习框架（名为 MTSQL）来处理复杂的 SQL 查询。通过设计一个模式链接鉴别器模块来区分有效的问题 - 模式关联，明确指示编码器通过特殊的链接关系来增强对齐质量。在解码器方面，我们定义了 6 种关系类型来描述表格和列之间的连接，并引入以运算符为中心的三元抽取器来识别那些与预定义关系相关的模式项。此外，我们通过预测的三元组建立了一组语法约束规则集，用于在 SQL 生成过程中过滤适当的 SQL 运算符和模式项。在跨领域的具有挑战性的文本到 SQL 基准测试 Spider 上，实验结果表明 MTSQL 比基线方法更有效，特别是在极端困难的场景中。此外，进一步的分析验证了我们的方法在处理复杂 SQL 查询方面的有希望的改进。

Mar, 2024

mRAT-SQL+GAP：一种葡萄牙语文本到 SQL 转换器

该研究使用多语言 BART 模型来研究将葡萄牙语问题翻译为 SQL 查询时的技术和现象，证明使用原始和翻译的训练数据集的多语言 BART 模型在葡萄牙语测试数据集上的准确率可以达到 83％，对于使用非英语语言进行机器学习的研究者具有一定的参考价值。

Oct, 2021

DIN-SQL：基于上下文分解的自我修正文本到 SQL 学习

研究了如何将复杂的文本到 SQL 任务分解为较小的子任务，从而显著提高大型语言模型（LLMs）在推理过程中的性能，证明了将 SQL 查询分解为子问题并将这些子问题的解决方案提供给 LLMs 可以显著提高性能。在三个 LLMs 上的实验表明，此方法始终将性能提高约 10％，推动 LLMs 的准确性接近最先进水平，甚至超过用于持有 Spider 数据集的大型精调模型。

Apr, 2023

一个编码器 - 解码器框架，将自然语言翻译为数据库查询

本研究考虑将自然语言转换成 SQL，用于关系数据库的数据检索。我们提出了一种新的编码 - 解码框架，包括新的语义特征和语法感知状态等新方法。实证评估结果表明，我们的方法在真实世界的数据库和查询上明显优于现有技术。

Nov, 2017