基于表格数据的深度学习：一种自监督方法

Jan, 2024

基于表格数据的深度学习：一种自监督方法

Deep Learning with Tabular Data: A Self-supervised Approach

Tirth Kiranbhai Vyas

TL;DR使用自监督学习的 TabTransformer 模型，通过描述一种新颖的表格数据训练方法，提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法，研究结果显示 TabTransformer 在表格数据上的性能优势。

Abstract

We have described a novel approach for training tabular data using the tabtransformer model with self-supervised learning. Traditional mac

tabtransformer self-supervised learning tabular data categorical numerical features

发现论文，激发创造

TabTransformer：使用上下文嵌入建模表格数据

TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构，可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验，我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时，我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性，可用于噪声和丢失形式的数据特征，提供更好的可解释性。最后，对于半监督场景，我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入，使 AUC 平均提升 2.1%。

Dec, 2020

SwitchTab：交换式自编码器是有效的表格学习模型

SwitchTab 是一种新颖的自我监督方法，专门用于捕捉表格数据中的潜在依赖关系，并通过使用经过预训练的鲜明嵌入来提高下游任务的性能，同时可通过可视化来创建可解释的表示。

Jan, 2024

SubTab: 自监督表示学习中的表格数据特征子集

本文介绍了一种新框架 SubTab, 通过将输入特征分成多个子集，将学习表格数据的任务转化为多视图表示学习问题，从而捕捉其潜在的潜在表示。在 MNIST 数据集上，SubTab 取得了 98.31％的表现，与 CNN 的最新结果持平，并在三个其他真实数据集上超过了现有基线。

Oct, 2021

XTab：跨表预训练技术用于表格 Transformer 模型

本研究提出了一个名为 XTab 的跨表格预训练框架，使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能，并通过联邦学习解决了跨表不一致的挑战。

May, 2023

TransTab: 在表格间学习可迁移的表格变换器

该研究论文提出了一种名为转移性表格变压器（TransTab）的新方法，该方法通过将表格中的每个样本（即行）转换为可推广的嵌入向量，然后应用堆叠的变压器进行特征编码，来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测，并对预训练模型的性能进行了分析和比较。

May, 2022

GatedTabTransformer：表格建模的增强深度学习架构

本文提出了多种改进的 TabTransformer 模型，其中包含注意力机制和多种激活函数以及线性投影，针对三个数据集的二分类任务取得了超过 1% 的 AUROC 收益。此外，我们还评估了训练过程中特定超参数的重要性。

Jan, 2022

基于多项式的自注意力机制用于表格表示学习

通过提出一种基于矩阵多项式的自注意力层作为替代，我们改善了 Transformer 在表格数据中存在的平滑问题，并展示该层能够提高表格数据的表示性能，胜过现有方法。

Dec, 2023

应用表格转换器挑战 Booking.com 诈骗检测中的梯度提升决策树

使用 SSL 技术的基于 Transformer 的神经网络在欺诈检测任务中超越 GBDT 算法，在大规模实验中，预训练的 Transformer 模型在有限的微调数据上表现更加一致且需要较少的标记数据。

May, 2024

自助式交叉表格表示学习的扩展实验

为了分析深度表格表示学习模型的扩展潜力，我们引入了一种专门针对表格数据的基于 Transformer 的架构，通过利用表格特定的分词器和共享的 Transformer 主干来进行交叉表格表示学习。我们的训练方法包括单表和交叉表格模型，通过自我监督的掩码式单元恢复目标进行缺失值填充。为了了解我们方法的扩展行为，我们训练了不同规模的模型，参数范围从大约 $10^4$ 到 $10^7$。这些模型在精心策划的预训练数据集上进行训练，包含来自 76 个不同数据集的 135M 个训练令牌。通过使用线性推测在精心策划的基准数据集上评估预训练模型并与传统基准进行比较，我们评估了我们架构在单表和交叉表格预训练设置中的扩展性。

Sep, 2023

用表格转换器对多元时间序列进行建模

本研究利用深度学习算法构建神经网络模型，对具有层级结构的表格时间序列进行表示学习，提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型，并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。

Nov, 2020