TaBERT: 文本和表格数据联合理解的预训练

ACLMay, 2020

TaBERT: 文本和表格数据联合理解的预训练

TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data

Pengcheng Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel

TL;DR该论文提出了一种在语言模型中加入（半）结构化表格信息的方法，并在语义解析任务上取得了新的最佳结果。

Abstract

Recent years have witnessed the burgeoning of pretrained language models (LMs) for text-based natural language (NL) understanding tasks. Such models are typically trained on free-form NL text, hence may not be suitable for tasks like →

pretrained language models nl understanding structured data table understanding semantic parsing

发现论文，激发创造

CT-BERT：通过跨表格预训练学习更好的表格表示

该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战，并提出了一种名为 CT-BERT 的新型框架，同时引入了对比学习和表格建模的目标，通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。

Jul, 2023

提升预训练语言模型在表格预测任务中的性能

TP-BERTa 是一种专门用于表格数据预测的预训练语言模型，通过将数值特征值转换为离散的高维标记，并使用内部特征注意方法将特征值与相应的特征名称相结合，TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越，并与梯度提升决策树模型具备竞争力。

Mar, 2024

使用深度上下文语言模型进行表格搜索

本文使用预训练的 BERT 模型来处理表格检索任务，研究如何编码表格内容以及如何将其他文献中的特征与 BERT 模型联合训练，实验表明这一方法在公共数据集上表现卓越。

May, 2020

使用预训练语言模型建模表格数据

通过引入预训练语言模型（PTM）和三个处理阶段（MT、MF、CF），提出了一种新的名为 PTab 的框架，以将预训练模型用于建模表格数据，并取得比现有技术更好的分类效果。

Sep, 2022

TABBIE：表格数据的预训练表示

通过自我学习目标函数和预训练语言模型（如 BERT）对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务（例如回答关于表格的问题）的性能，但在没有任何相关文本的情况下处理表格的任务（例如填充缺失的单元格）时表现不佳。我们提出了一种简单的预训练目标（损坏单元格检测），该预训练目标只是从表格数据中学习，并且在一套基于表格的预测任务上达到了最先进的水平，从而超过了竞争方法。与其他方法不同，我们的模型（TABBIE）提供了所有表子结构（单元格、行和列）的嵌入，并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析，结果表明它可以理解复杂的表语义和数字趋势。

May, 2021

使用中间预训练理解表格

通过数据增强方法，我们将 TAPAS 模型应用于表格蕴含和顺序表格问答任务，在采用表格剪枝技术的前提下，取得了 TabFact 和 SQA 数据集上的最新成果。

Oct, 2020

使用表格语言模型在工业表格中进行命名实体识别

本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题，并开发了一种专用的表格数据增强策略来提高性能，实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。

Sep, 2022

使用自然语言查询表格数据的 TableQuery

TableQuery 是一种使用深度学习模型进行自然语言查询转化为结构化查询的工具，解决了传统深度学习方法在表格数据上存在的内存和实时更新的问题。

Jan, 2022

TabFact：一个用于基于表格的事实验证的大规模数据集

本文介绍 TabFact 数据集，其中包含 118k 人工标注的自然语言陈述，并以 16k 个 Wikipedia 表格作为证据，同时介绍了 Table-BERT 和 LPA，这两种算法都能在半结构化数据情况下进行事实验证，都有优点和不足之处，但是都能被进一步开发优化。

Sep, 2019

填补鸿沟：利用大型语言模型解读表格数据

大型语言模型在表格问答任务中的首次应用以增强模型对表格结构和内容的理解。

Aug, 2023