内容增强的基于 BERT 的文本到 SQL 生成

Oct, 2019

内容增强的基于 BERT 的文本到 SQL 生成

Content Enhanced BERT-based Text-to-SQL Generation

Tong Guo, Huilin Gao

TL;DR本文提出了一种简单的方法，利用表格内容为基于 BERT 的模型解决文本到 SQL 的问题。通过观察表格内容与问题中的一些单词匹配以及表格标题也与问题中的一些单词匹配，我们为深度模型编码了两个额外的特征向量。我们在 WikiSQL 数据集上进行了测试，并在逻辑形式和执行准确性方面比 BERT 基线提高了 3.7％，成为业内领先者。

Abstract

We present a simple methods to leverage the table content for the BERT-based model to solve the text-to-sql problem. Based on the observation that some of the →

text-to-sql problem bert-based model feature vector table content wikisql dataset

发现论文，激发创造

使用深度上下文语言模型进行表格搜索

本文使用预训练的 BERT 模型来处理表格检索任务，研究如何编码表格内容以及如何将其他文献中的特征与 BERT 模型联合训练，实验表明这一方法在公共数据集上表现卓越。

May, 2020

利用表格内容进行元学习的零样本文本到 SQL

本研究提出了一种新的零样本文本到 SQL 任务中的方法，该方法不依赖于任何额外的手动注释，并在 WikiSQL 数据集和 ESQL 数据集上展开了广泛实验，相较于使用相同预训练模型的现有方法，我们的方法在两个数据集上都取得了显著的改进，特别是在零样本子集上，我们的方法进一步提高了改进。

Sep, 2021

具备表格感知的单词语境综合 WikiSQL 探索

SQLova 是第一个在 WikiSQL 数据集中实现人类性能的自然语言到 SQL 模型，利用了 BERT 通过有效的表格语境方法，结合了多种流行的 NL2SQL 方法，在逻辑形式和执行准确度方面分别优于先前的最新技术水平 8.2％和 2.5％。我们特别注意到，在使用这样的大型预训练模型时，BERT 与序列到序列解码器会导致性能不佳，这表明设计的重要性。我们还对数据集和我们的模型进行了全面的分析，这可能有助于设计未来的 NL2SQL 数据集和模型。我们特别展示了我们模型的表现已经接近 WikiSQL 的上限，在其中我们观察到大部分评估错误是由于错误的注释，而我们的模型在执行准确度方面已经超过人类表现 1.3％。

Feb, 2019

可迁移的表格问答

本文设计了新的挑战测试基准 WikiSQL-TS 和 WikiTQ-TS，模拟了实际主题转移场景，并提出了适用于 TableQA 的 T3QA（主题可转移的表格问题回答）方案，包括注入特定主题词汇、生成主题专用训练数据生成程序和逻辑形式重新排序器。我们认为我们的主题分裂基准将会促进更好的部署的鲁棒的 TableQA 解决方案。

Sep, 2021

Bertrand-DR: 基于判别式重排的文本到 SQL 改进方法

本文提出一种判别式 re-ranker 方法，用于在 generative text-to-SQL 模型的预测输出中提取最佳 SQL 查询，从而提高表现。作为 schema agnostic BERT 细调分类器构建 re-ranker。在分析不同查询难度级别的 text-to-SQL 和 re-ranker 模型的相对优势的基础上，建议如何结合这两种模型以获得最佳表现，我们通过将其应用于两种最先进的 text-to-SQL 模型，证明了 re-ranker 的有效性，在编写本文时在 Spider 排行榜上排名前四。

Feb, 2020

语义解析：基于语法和表格的 SQL 生成

利用生成模型将自然语言问题转换成 SQL 查询，并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验，将执行准确率从 69.0％提高到 74.4％。

Apr, 2018

TaBERT: 文本和表格数据联合理解的预训练

该论文提出了一种在语言模型中加入（半）结构化表格信息的方法，并在语义解析任务上取得了新的最佳结果。

May, 2020

基于内容的 Web 查询表格检索

本研究旨在解决自然语言处理中未结构化文本与半结构化表之间的关系问题，通过提出基于内容的表的检索方法，应用精心设计的特征和神经网络结构实现查找中最相关表格的目标，并发布了一个包含 21,113 个网络查询和 273,816 个表格的开放领域数据集，验证了该方法的有效性并提出了该任务的挑战。

Jun, 2017

带执行引导的 Text-to-SQL 生成的鲁棒性

该研究探讨了神经话语解析的问题，引入新的执行指南机制来利用 SQL 的语义，证明其普遍提高了基于自回归生成模型的语义解析模型的性能。

Jul, 2018

文本到 SQL 的混合排名网络

本文旨在研究如何应用预训练语言模型和 Hybrid Ranking Network (HydraNet) 方法来优化 Text-to-SQL 任务，通过将问题和一个具体的列一起以列排名和解码的形式呈现，然后通过简单的规则组装到一起。实验表明，该方法非常有效，并在 WikiSQL 数据集上实现了最佳表现。

Aug, 2020