自助式交叉表格表示学习的扩展实验

Sep, 2023

自助式交叉表格表示学习的扩展实验

Scaling Experiments in Self-Supervised Cross-Table Representation Learning

Maximilian Schambach, Dominique Paul, Johannes S. Otterbach

TL;DR为了分析深度表格表示学习模型的扩展潜力，我们引入了一种专门针对表格数据的基于 Transformer 的架构，通过利用表格特定的分词器和共享的 Transformer 主干来进行交叉表格表示学习。我们的训练方法包括单表和交叉表格模型，通过自我监督的掩码式单元恢复目标进行缺失值填充。为了了解我们方法的扩展行为，我们训练了不同规模的模型，参数范围从大约 $10^4$ 到 $10^7$。这些模型在精心策划的预训练数据集上进行训练，包含来自 76 个不同数据集的 135M 个训练令牌。通过使用线性推测在精心策划的基准数据集上评估预训练模型并与传统基准进行比较，我们评估了我们架构在单表和交叉表格预训练设置中的扩展性。

Abstract

To analyze the scaling potential of deep tabular representation learning models, we introduce a novel transformer-based architecture specifically tailored to →

deep tabular representation learning transformer-based architecture tabular data cross-table representation learning scaling behavior

发现论文，激发创造

XTab：跨表预训练技术用于表格 Transformer 模型

本研究提出了一个名为 XTab 的跨表格预训练框架，使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能，并通过联邦学习解决了跨表不一致的挑战。

May, 2023

CT-BERT：通过跨表格预训练学习更好的表格表示

该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战，并提出了一种名为 CT-BERT 的新型框架，同时引入了对比学习和表格建模的目标，通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。

Jul, 2023

TransTab: 在表格间学习可迁移的表格变换器

该研究论文提出了一种名为转移性表格变压器（TransTab）的新方法，该方法通过将表格中的每个样本（即行）转换为可推广的嵌入向量，然后应用堆叠的变压器进行特征编码，来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测，并对预训练模型的性能进行了分析和比较。

May, 2022

TABBIE：表格数据的预训练表示

通过自我学习目标函数和预训练语言模型（如 BERT）对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务（例如回答关于表格的问题）的性能，但在没有任何相关文本的情况下处理表格的任务（例如填充缺失的单元格）时表现不佳。我们提出了一种简单的预训练目标（损坏单元格检测），该预训练目标只是从表格数据中学习，并且在一套基于表格的预测任务上达到了最先进的水平，从而超过了竞争方法。与其他方法不同，我们的模型（TABBIE）提供了所有表子结构（单元格、行和列）的嵌入，并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析，结果表明它可以理解复杂的表语义和数字趋势。

May, 2021

跨表预训练：面向异构表格数据的通用函数空间

本研究通过引入一种跨表预训练的 Transformer 模型（XTFormer），填补了现有的跨表数据预测任务中可重复模式有限且数据稀缺的空白。实验结果显示，在 190 项下游表格预测任务中，我们的 XTFormer 在 137 项（72%）任务上胜过 XGBoost 和 Catboost，并且在 144 项（76%）和 162 项（85%）任务上超过了具有代表性的深度学习模型 FT-Transformer 和表格预训练方法 XTab。

Jun, 2024

基于表格数据的深度学习：一种自监督方法

使用自监督学习的 TabTransformer 模型，通过描述一种新颖的表格数据训练方法，提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法，研究结果显示 TabTransformer 在表格数据上的性能优势。

Jan, 2024

TabTransformer：使用上下文嵌入建模表格数据

TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构，可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验，我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时，我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性，可用于噪声和丢失形式的数据特征，提供更好的可解释性。最后，对于半监督场景，我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入，使 AUC 平均提升 2.1%。

Dec, 2020

深度学习中针对表格数据的数据增强策略重新审视

本文提出了一种名为 $ extbf {M}$ask $ extbf {T}$oken $ extbf {R}$eplacement ($ exttt {MTR}$) 的数据增广方法，利用 Transformer 的特性对每个列嵌入进行数据增广来提高模型性能。通过在 13 个各异的公共数据集中运行受监督和自监督的学习场景，我们表明 $ exttt {MTR}$ 相对于现有数据增广方法具有竞争性能，并改善了模型性能。此外，还讨论了 $ exttt {MTR}$ 最有效的特定场景，并确定了其应用范围。

May, 2023

基于多项式的自注意力机制用于表格表示学习

通过提出一种基于矩阵多项式的自注意力层作为替代，我们改善了 Transformer 在表格数据中存在的平滑问题，并展示该层能够提高表格数据的表示性能，胜过现有方法。

Dec, 2023

检索式变压器用于表格增强

本文提出了一种基于自学习的检索增强型 Transformer 模型，其用于自动数据整理以减轻数据分析师的工作量，实现适用于动态数据视图的表格数据的结构化与数据补全，数据的预处理是实现分析或构建机器学习模型时最昂贵和耗时的步骤之一。

Jun, 2023