UniSAr: 用于文本到 SQL 的统一结构感知自回归语言模型
在本文中,我们介绍了 Ar-Spider 1,即第一个阿拉伯跨域文本到 SQL 数据集。为了解决语言本质相关的问题,我们采用了两个基线模型 LGESQL 和 S2SQL,并提出了上下文相似性关系(CSR)方法,该方法显著提高了阿拉伯文本到 SQL 的整体性能。
Feb, 2024
该论文提出了一种基于关系嵌入的半自回归语义分析 NL2SQL 方法,通过 ELECTRA 和关系感知 transformer 层实现与模式实体及问题单词之间的关系嵌入,再使用半自回归解析器和预定义的 SQL 语法解码查询 SQL,从实验结果和案例研究来看,该方法在 NL2SQL 中具有更好的词汇表现力。
Aug, 2021
通过动态检索输入数据库信息和使用抽象语法树选择少量示例以进行上下文学习,本文提出一种从大型语言模型的角度着眼于文本到 SQL 语义解析的方法,并研究并行语义解析器在生成预期 SQL 查询的近似版本方面的利用程度。作者利用不到 500M 参数的极其高效的逼近模型进行了实验,应用于语义解析的单语和跨语言基准测试中,取得了比现有基准的改进效果,并对未来工作方向提出了有趣的见解。
Jul, 2024
该研究使用基于关系感知自注意机制的统一框架,解决将自然语言问题转换为 SQL 查询中出现的通用性问题,包括编码数据库关系,建立数据库列和查询的链接,以及特征表示。在 Spider 数据集上,该框架将的精确匹配准确度提高到 57.2%,优于其最好的对手 8.7%的绝对改进,并在 BERT 的支持下,实现了 65.6%的性能,成为了新的最佳表现,同时也在模型对数据库链接和对齐的理解方面得到了定性改善。
Nov, 2019
该文提出了一种名为 NAUS 的非自回归无监督摘要方法,使用基于编辑的搜索生成伪基准摘要,并在此基础上训练一个仅含编码器的非自回归 Transformer,通过动态规划方法进行长度控制解码,实现了在无监督摘要中取得最新的性能提升,同时提高了推理效率。
May, 2022
本文对不同的无自回归(NAR)建模方法进行了比较性研究,实验证明了 NAR 模型相较自回归基线的精度降低代价下,可以同时在序列中生成多个输出,具有在实时应用中优足的潜力,在自动语音识别领域的性能差距上得到了一些有趣的发现,并展示了结合这些技术来进一步提高精度并应用于无自回归端到端语音翻译的能力。
Oct, 2021
使用关系结构提高 Transformer seq2seq 模型在文本转 SQL 中的效果,实验结果表明在多个数据集中取得了最优结果。
May, 2022
该研究提出了一种简单高效的无监督语音到语义预训练模型,使用无监督自动语音识别作为连接器,实现了不同任务的语音语言理解,其中包括最近热门的口语问答任务,并在 NMSQA 基准测试中达到了最新的最优结果。
Nov, 2022
本研究旨在建立 DuoRAT 作为对最新的 RAT-SQL 模型的重新实现,验证其在使用关系感知或普通变换器作为构建块的情况下的有效性,并通过消融实验来确认一些技术的有用性以及结构化 SQL 功能和在问题与架构之间建立联系的冗余特征。
Oct, 2020