TAPEX: 通过学习神经 SQL 执行器进行表格预训练

ICLRJul, 2021

TAPEX: 通过学习神经 SQL 执行器进行表格预训练

TAPEX: Table Pre-training via Learning a Neural SQL Executor

Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin...

TL;DR本文提出了 TAPEX，利用合成语料库学习神经 SQL 执行器来解决表格预训练中数据稀缺的挑战，并在四个基准数据集上实现了新的最先进结果。

Abstract

Recent progress in language model pre-training has achieved a great success via leveraging large-scale unstructured textual data. However, it is still a challenge to apply pre-training on structured tabular data

language model pre-training structured tabular data neural sql executor synthetic corpus state-of-the-art results

发现论文，激发创造

通过预训练实现弱监督的表格解析

TAPAS 是一种用于表格上回答自然语言问题的模型，它使用弱监督训练，不需要生成逻辑式，而是通过对表格中的单元格进行选择并可选择性地应用相应的聚合算子来预测表格的结果，并在三个语义分析数据集上取得了优异成绩。

Apr, 2020

ReasTAP: 通过合成推理实例在预训练期间注入表格推理技能

本文介绍了一种基于强化预训练的模型 ReasTAP，可以注入高级的表格推理能力，在多项任务上取得新的最先进性能和显著的改进。

Oct, 2022

生成式表格预训练加强了表格预测模型

该论文提出了 TapTap，利用表格预训练生成高质量的合成表格，支持各种基于表格数据的应用，通过广泛的实验验证其在 12 个数据集上的性能大大优于 16 种基线，并可轻松与各种基础模型相结合，是合成表格数据生成发展中的一个里程碑。

May, 2023

GraPPa: 表格语义解析的语法增强预训练

GraPPa 是一种有效的预训练方法，用于表语义分析，学习了文本和表格数据的联合表示中的组合归纳偏置。它通过从现有文本到 SQL 数据集中归纳出的同步上下文无关文法（SCFG）构造高质量表的综合问题 - SQL 对，使用一种新的文本模式链接目标在合成数据上进行模型预训练，并包括遮蔽语言建模以引导预训练过程。GraPPa 在四个流行的全监督和弱监督表格语义解析基准上都显着优于 RoBERTa-large，建立了新的所有最先进的结果。

Sep, 2020

XTab：跨表预训练技术用于表格 Transformer 模型

本研究提出了一个名为 XTab 的跨表格预训练框架，使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能，并通过联邦学习解决了跨表不一致的挑战。

May, 2023

OmniTab：使用自然及合成数据进行预训练的 Few-shot 表格问答模型

本文旨在开发一种简单的基于表格的问答模型，采用全能预训练方法结合自然和合成数据，实现问题与表格的对齐和多元素复杂推理，实验证明该模型在少量和全量数据上性能卓越，在 WikiTableQuestions 数据集上成为新的最优模型，讨论分析自然数据和合成数据的不同特点，为全能预训练提供未来方向。

Jul, 2022

利用表格内容进行元学习的零样本文本到 SQL

本研究提出了一种新的零样本文本到 SQL 任务中的方法，该方法不依赖于任何额外的手动注释，并在 WikiSQL 数据集和 ESQL 数据集上展开了广泛实验，相较于使用相同预训练模型的现有方法，我们的方法在两个数据集上都取得了显著的改进，特别是在零样本子集上，我们的方法进一步提高了改进。

Sep, 2021

TaBERT: 文本和表格数据联合理解的预训练

该论文提出了一种在语言模型中加入（半）结构化表格信息的方法，并在语义解析任务上取得了新的最佳结果。

May, 2020

具备表格感知的单词语境综合 WikiSQL 探索

SQLova 是第一个在 WikiSQL 数据集中实现人类性能的自然语言到 SQL 模型，利用了 BERT 通过有效的表格语境方法，结合了多种流行的 NL2SQL 方法，在逻辑形式和执行准确度方面分别优于先前的最新技术水平 8.2％和 2.5％。我们特别注意到，在使用这样的大型预训练模型时，BERT 与序列到序列解码器会导致性能不佳，这表明设计的重要性。我们还对数据集和我们的模型进行了全面的分析，这可能有助于设计未来的 NL2SQL 数据集和模型。我们特别展示了我们模型的表现已经接近 WikiSQL 的上限，在其中我们观察到大部分评估错误是由于错误的注释，而我们的模型在执行准确度方面已经超过人类表现 1.3％。

Feb, 2019

使用 TabT5 进行表格到文本生成和预训练

TABT5 是编码器 - 解码器模型，可以生成基于表格和文本输入的自然语言文本，结合表格特定的嵌入和预训练，成功地克服了编码器的限制，并在多个领域取得了最新的最佳结果。

Oct, 2022