UniSAr: 用于文本到 SQL 的统一结构感知自回归语言模型

Mar, 2022

UniSAr: 用于文本到 SQL 的统一结构感知自回归语言模型

UniSAr: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL

Longxu Dou, Yan Gao, Mingyang Pan, Dingzirui Wang, Wanxiang Che...

TL;DR论文提供了基于 UniSAr（Unified Structure-Aware Autoregressive Language Model）的文本到 SQL 语义解析方法，该方法采用自回归语言模型结构，能够在多领域、多表和多轮等不同设置下实现高效的解析。

Abstract

Existing text-to-sql semantic parsers are typically designed for particular settings such as handling queries that span multiple tables, domains or turns which makes them ineffective when applied to different settings. We present →

text-to-sql semantic parser unisar autoregressive language model structure-aware

发现论文，激发创造

阿拉伯语文本到 SQL 的 Ar-Spider

在本文中，我们介绍了 Ar-Spider 1，即第一个阿拉伯跨域文本到 SQL 数据集。为了解决语言本质相关的问题，我们采用了两个基线模型 LGESQL 和 S2SQL，并提出了上下文相似性关系（CSR）方法，该方法显著提高了阿拉伯文本到 SQL 的整体性能。

Feb, 2024

NL2SQL 的关系感知半自回归语义解析

该论文提出了一种基于关系嵌入的半自回归语义分析 NL2SQL 方法，通过 ELECTRA 和关系感知 transformer 层实现与模式实体及问题单词之间的关系嵌入，再使用半自回归解析器和预定义的 SQL 语法解码查询 SQL，从实验结果和案例研究来看，该方法在 NL2SQL 中具有更好的词汇表现力。

Aug, 2021

基于 AST 排序和架构修剪的改进检索增强型文本到 SQL 模型

通过动态检索输入数据库信息和使用抽象语法树选择少量示例以进行上下文学习，本文提出一种从大型语言模型的角度着眼于文本到 SQL 语义解析的方法，并研究并行语义解析器在生成预期 SQL 查询的近似版本方面的利用程度。作者利用不到 500M 参数的极其高效的逼近模型进行了实验，应用于语义解析的单语和跨语言基准测试中，取得了比现有基准的改进效果，并对未来工作方向提出了有趣的见解。

Jul, 2024

RAT-SQL：基于关系感知的文本 - SQL 解析器的模式编码和链接

该研究使用基于关系感知自注意机制的统一框架，解决将自然语言问题转换为 SQL 查询中出现的通用性问题，包括编码数据库关系，建立数据库列和查询的链接，以及特征表示。在 Spider 数据集上，该框架将的精确匹配准确度提高到 57.2％，优于其最好的对手 8.7％的绝对改进，并在 BERT 的支持下，实现了 65.6％的性能，成为了新的最佳表现，同时也在模型对数据库链接和对齐的理解方面得到了定性改善。

Nov, 2019

从搜索中学习非自回归模型用于无监督句子摘要

该文提出了一种名为 NAUS 的非自回归无监督摘要方法，使用基于编辑的搜索生成伪基准摘要，并在此基础上训练一个仅含编码器的非自回归 Transformer，通过动态规划方法进行长度控制解码，实现了在无监督摘要中取得最新的性能提升，同时提高了推理效率。

May, 2022

语音转文本非自回归建模的比较研究

本文对不同的无自回归（NAR）建模方法进行了比较性研究，实验证明了 NAR 模型相较自回归基线的精度降低代价下，可以同时在序列中生成多个输出，具有在实时应用中优足的潜力，在自动语音识别领域的性能差距上得到了一些有趣的发现，并展示了结合这些技术来进一步提高精度并应用于无自回归端到端语音翻译的能力。

Oct, 2021

UT5：使用展开去噪预训练非自回归性 T5 模型

通过展开去噪并展示其在下游生成任务中的最先进结果，我们研究了 T5 模型的非自回归无监督预训练。

Nov, 2023

RASAT：将关系结构集成到预训练 Seq2Seq 模型中，用于文本到 SQL 的转换

使用关系结构提高 Transformer seq2seq 模型在文本转 SQL 中的效果，实验结果表明在多个数据集中取得了最优结果。

May, 2022

无监督自动语音识别桥接语音和文本预训练模型

该研究提出了一种简单高效的无监督语音到语义预训练模型，使用无监督自动语音识别作为连接器，实现了不同任务的语音语言理解，其中包括最近热门的口语问答任务，并在 NMSQA 基准测试中达到了最新的最优结果。

Nov, 2022

DuoRAT: 迈向更简单的文本到 SQL 模型

本研究旨在建立 DuoRAT 作为对最新的 RAT-SQL 模型的重新实现，验证其在使用关系感知或普通变换器作为构建块的情况下的有效性，并通过消融实验来确认一些技术的有用性以及结构化 SQL 功能和在问题与架构之间建立联系的冗余特征。

Oct, 2020