mRAT-SQL+GAP：一种葡萄牙语文本到 SQL 转换器

Oct, 2021

mRAT-SQL+GAP：一种葡萄牙语文本到 SQL 转换器

mRAT-SQL+GAP:A Portuguese Text-to-SQL Transformer

Marcelo Archanjo José, Fabio Gagliardi Cozman

TL;DR该研究使用多语言 BART 模型来研究将葡萄牙语问题翻译为 SQL 查询时的技术和现象，证明使用原始和翻译的训练数据集的多语言 BART 模型在葡萄牙语测试数据集上的准确率可以达到 83％，对于使用非英语语言进行机器学习的研究者具有一定的参考价值。

Abstract

The translation of natural language questions to SQL queries has attracted growing attention, in particular in connection with transformers and similar language models. A large number of techniques are geared towards the English language; in this work, we thus investigated translation to SQL when input questions are given in the →

natural language processing sql translation portuguese language multilingual bart model machine learning

发现论文，激发创造

葡萄牙语问答与文本转 SQL 的整合

本文提出、构建并验证了一个集成不同模块以回答两种不同查询的结构，该模型利用自然语言文本，分类并将其发送给神经问题回答推理器或自然语言解析器到 SQL，经过测试和实验，我们的系统以高精度（超过 99％）选择适当的回答方法，从而验证了模块化问题回答策略。

Feb, 2022

DuoRAT: 迈向更简单的文本到 SQL 模型

本研究旨在建立 DuoRAT 作为对最新的 RAT-SQL 模型的重新实现，验证其在使用关系感知或普通变换器作为构建块的情况下的有效性，并通过消融实验来确认一些技术的有用性以及结构化 SQL 功能和在问题与架构之间建立联系的冗余特征。

Oct, 2020

通过数据库模式修剪改进自我关注的多语言 SQL 翻译器

本文提出了一种技术，使长文本序列可以通过 transformers 处理，这对于自然语言到 SQL 查询的翻译非常有用，该技术包括训练过程、数据库架构修剪和多语言方法。

Jun, 2023

StatBot.Swiss: 双语自然语言下的开放数据探索

使用大型语言模型（LLMs）在 Text-to-SQL 系统方面的潜力主要集中在英文单语数据集上的评估，然而，LLMs 在其他语言上的表现鲜有研究。本研究发布了 StatBot.Swiss 数据集，这是第一个基于真实应用程序评估 Text-to-SQL 系统的双语基准数据集。StatBot.Swiss 数据集包含了 455 个英文和德文之间的自然语言 / SQL 对，涵盖了 35 个不同难度级别的大型数据库。我们使用 GPT-3.5-Turbo 和 mixtral-8x7b-instruct 等最先进的 LLMs 来评估 Text-to-SQL 翻译任务的性能，并采用上下文学习方法。我们的实验分析表明，目前的 LLMs 在生成 SQL 查询语句方面在我们的新型双语数据集上普遍存在泛化能力不佳的问题。

Jun, 2024

AraSpider: 民主化的阿拉伯语到 SQL

本研究提出了 AraSpider，这是首个用于改进阿拉伯语社区中自然语言处理（NLP）的 Spider 数据集的阿拉伯语版本。通过测试四种多语言翻译模型的效果来将英语转换为阿拉伯语，并评估两种模型在从阿拉伯文本生成 SQL 查询方面的能力。结果表明，使用回译能显著提高 ChatGPT 3.5 和 SQLCoder 模型的性能，这两个模型在 Spider 数据集中被认为是顶尖的表现者。值得注意的是，ChatGPT 3.5 展现了高质量的翻译能力，而 SQLCoder 在文本到 SQL 任务上表现出色。该研究强调在阿拉伯语 NLP 任务中，融入语境架构并采用回译策略以提高模型性能的重要性。此外，提供了详细的方法可复现性和将数据集翻译为其他语言的方法，突显了该研究在促进透明度和协作知识共享方面的承诺。总的来说，这些贡献推动了 NLP 研究的发展，增强了阿拉伯语研究人员的能力，并丰富了全球关于语言理解和数据库查询的讨论。

Feb, 2024

阿拉伯语文本到 SQL 的 Ar-Spider

在本文中，我们介绍了 Ar-Spider 1，即第一个阿拉伯跨域文本到 SQL 数据集。为了解决语言本质相关的问题，我们采用了两个基线模型 LGESQL 和 S2SQL，并提出了上下文相似性关系（CSR）方法，该方法显著提高了阿拉伯文本到 SQL 的整体性能。

Feb, 2024

面向多语言问答的 SQuAD 数据集自动西班牙语翻译

本文提出 Translate Align Retrieve (TAR) 方法，通过将 Stanford Question Answering Dataset（SQuAD）v1.1 自动翻译成西班牙语，创建了大规模的西班牙语 QA training dataset。使用此数据集通过微调 Multilingual-BERT 模型训练了西班牙语 QA 系统，并在 MLQA 和 XQuAD 基准测试上进行了评估，结果表明该方法优于 Multilingual-BERT 基线，达到了新的最高 69.1 F1 分数。

Dec, 2019

MultiSpider：旨在基准测试多语言文本到 SQL 语义解析

本文介绍了 MultiSpider 数据集与 SAVe 框架，MultiSpider 数据集覆盖 7 种语言，且文中进一步提出了各种语言下，text-to-SQL 语义解析所面临的词汇和结构上的挑战，导致非英语言的解析准确率下降了 6.1％，而 SAVe 框架则通过对 Schema 进行增强从而有助于提升解析的性能。

Dec, 2022

通过增加自然语言变化提升语义解析的泛化能力

使用数据增强来增强文本到 SQL 解析器对自然语言变化的鲁棒性，通过大型语言模型生成更真实和多样化的问题，从而在评估集合中实现显著的改进。

Feb, 2024

RAT-SQL：基于关系感知的文本 - SQL 解析器的模式编码和链接

该研究使用基于关系感知自注意机制的统一框架，解决将自然语言问题转换为 SQL 查询中出现的通用性问题，包括编码数据库关系，建立数据库列和查询的链接，以及特征表示。在 Spider 数据集上，该框架将的精确匹配准确度提高到 57.2％，优于其最好的对手 8.7％的绝对改进，并在 BERT 的支持下，实现了 65.6％的性能，成为了新的最佳表现，同时也在模型对数据库链接和对齐的理解方面得到了定性改善。

Nov, 2019