TransTab: 在表格间学习可迁移的表格变换器

May, 2022

TransTab: 在表格间学习可迁移的表格变换器

TransTab: Learning Transferable Tabular Transformers Across Tables

Zifeng Wang, Jimeng Sun

TL;DR该研究论文提出了一种名为转移性表格变压器（TransTab）的新方法，该方法通过将表格中的每个样本（即行）转换为可推广的嵌入向量，然后应用堆叠的变压器进行特征编码，来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测，并对预训练模型的性能进行了分析和比较。

Abstract

tabular data (or tables) are the most widely used data format in machine learning (ML). However, ML models often assume the table structure keeps fixed in training and testing. Before ML modeling, heavy data cleaning

tabular data machine learning data cleaning transferable tabular transformer pretraining

发现论文，激发创造

XTab：跨表预训练技术用于表格 Transformer 模型

本研究提出了一个名为 XTab 的跨表格预训练框架，使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能，并通过联邦学习解决了跨表不一致的挑战。

May, 2023

CT-BERT：通过跨表格预训练学习更好的表格表示

该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战，并提出了一种名为 CT-BERT 的新型框架，同时引入了对比学习和表格建模的目标，通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。

Jul, 2023

TabTransformer：使用上下文嵌入建模表格数据

TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构，可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验，我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时，我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性，可用于噪声和丢失形式的数据特征，提供更好的可解释性。最后，对于半监督场景，我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入，使 AUC 平均提升 2.1%。

Dec, 2020

提升预训练语言模型在表格预测任务中的性能

TP-BERTa 是一种专门用于表格数据预测的预训练语言模型，通过将数值特征值转换为离散的高维标记，并使用内部特征注意方法将特征值与相应的特征名称相结合，TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越，并与梯度提升决策树模型具备竞争力。

Mar, 2024

自助式交叉表格表示学习的扩展实验

为了分析深度表格表示学习模型的扩展潜力，我们引入了一种专门针对表格数据的基于 Transformer 的架构，通过利用表格特定的分词器和共享的 Transformer 主干来进行交叉表格表示学习。我们的训练方法包括单表和交叉表格模型，通过自我监督的掩码式单元恢复目标进行缺失值填充。为了了解我们方法的扩展行为，我们训练了不同规模的模型，参数范围从大约 $10^4$ 到 $10^7$。这些模型在精心策划的预训练数据集上进行训练，包含来自 76 个不同数据集的 135M 个训练令牌。通过使用线性推测在精心策划的基准数据集上评估预训练模型并与传统基准进行比较，我们评估了我们架构在单表和交叉表格预训练设置中的扩展性。

Sep, 2023

TABBIE：表格数据的预训练表示

通过自我学习目标函数和预训练语言模型（如 BERT）对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务（例如回答关于表格的问题）的性能，但在没有任何相关文本的情况下处理表格的任务（例如填充缺失的单元格）时表现不佳。我们提出了一种简单的预训练目标（损坏单元格检测），该预训练目标只是从表格数据中学习，并且在一套基于表格的预测任务上达到了最先进的水平，从而超过了竞争方法。与其他方法不同，我们的模型（TABBIE）提供了所有表子结构（单元格、行和列）的嵌入，并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析，结果表明它可以理解复杂的表语义和数字趋势。

May, 2021

基于表格数据的深度学习：一种自监督方法

使用自监督学习的 TabTransformer 模型，通过描述一种新颖的表格数据训练方法，提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法，研究结果显示 TabTransformer 在表格数据上的性能优势。

Jan, 2024

TabRet：针对未知列预训练基于 Transformer 的表格模型

TabRet 是一种用于表格数据的可预训练的基于 Transformer 模型的模型。它通过用自动编码损失校准特征嵌入来调整特征嵌入，并在分类任务上获得最佳性能，预训练数据是公共卫生调查。

Mar, 2023

CARTE：表格学习的预训练与迁移

预定深度学习模型、表格数据、数据集成、神经网络架构、CARTE 等是该论文的关键词，并且 CARTE 是可用于表格数据的大型预训练模型的一种神经网络架构。

Feb, 2024

使用表格语言模型在工业表格中进行命名实体识别

本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题，并开发了一种专用的表格数据增强策略来提高性能，实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。

Sep, 2022