TabMT：使用掩码变换器生成表格数据

Dec, 2023

TabMT：使用掩码变换器生成表格数据

TabMT: Generating tabular data with masked transformers

Manbir S Gulati, Paul F Roysdon

TL;DR本文介绍了 TabMT，一种用于生成合成表格数据的新型掩码 Transformer 设计，它有效应对异构数据字段带来的独特挑战，并能够处理缺失数据。我们评估了 TabMT 在以保护隐私为重点的应用中的性能，并发现它能够生成具有优越隐私权衡的高质量数据。

Abstract

Autoregressive and masked transformers are incredibly effective as generative models and classifiers. While these models are most prevalent in NLP, they also exhibit strong performance in other domains, such as vision. This work contributes to the exploration of transformer-based model

generative models masked transformers synthetic data generation tabmt privacy-focused applications

发现论文，激发创造

DP-TBART：用于差分隐私表格数据生成的基于 Transformer 的自回归模型

维护差分隐私并在各种数据集上表现出与基于边际的方法相竞争的性能，甚至能够在某些情况下超越现有技术方法，我们提出了基于 Transformer 的差分隐私表格自回归模型 (DP-TBART)，并提供了理论框架来理解基于边际的方法的局限性以及深度学习方法的贡献。这些结果表明，在生成差分隐私合成表格数据中，应将基于深度学习的技术视为可行的替代方法。

Jul, 2023

用表格转换器对多元时间序列进行建模

本研究利用深度学习算法构建神经网络模型，对具有层级结构的表格时间序列进行表示学习，提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型，并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。

Nov, 2020

深度学习中针对表格数据的数据增强策略重新审视

本文提出了一种名为 $ extbf {M}$ask $ extbf {T}$oken $ extbf {R}$eplacement ($ exttt {MTR}$) 的数据增广方法，利用 Transformer 的特性对每个列嵌入进行数据增广来提高模型性能。通过在 13 个各异的公共数据集中运行受监督和自监督的学习场景，我们表明 $ exttt {MTR}$ 相对于现有数据增广方法具有竞争性能，并改善了模型性能。此外，还讨论了 $ exttt {MTR}$ 最有效的特定场景，并确定了其应用范围。

May, 2023

使用预训练语言模型建模表格数据

通过引入预训练语言模型（PTM）和三个处理阶段（MT、MF、CF），提出了一种新的名为 PTab 的框架，以将预训练模型用于建模表格数据，并取得比现有技术更好的分类效果。

Sep, 2022

基于表格数据的深度学习：一种自监督方法

使用自监督学习的 TabTransformer 模型，通过描述一种新颖的表格数据训练方法，提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法，研究结果显示 TabTransformer 在表格数据上的性能优势。

Jan, 2024

TabTransformer：使用上下文嵌入建模表格数据

TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构，可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验，我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时，我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性，可用于噪声和丢失形式的数据特征，提供更好的可解释性。最后，对于半监督场景，我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入，使 AUC 平均提升 2.1%。

Dec, 2020

ReMasker: 用蒙面自编码填补表格数据

ReMasker 是一种通过扩展遮罩自编码框架来填补表格数据中缺失值的新方法，通过在缺失值之外再随机地 “重新遮罩” 一组值，通过重构这个重新遮罩的组合来优化自编码器，然后应用训练好的模型来预测缺失值；通过对基准数据集的广泛评估，我们发现 ReMasker 在各种不完整数据设置下在填补准确性和效用方面与最先进的方法相媲美甚至超越，而且性能优势通常随着缺失数据比例的增加而增加。我们进一步探索了其有效性的理论依据，表明 ReMasker 倾向于学习表格数据的缺失不变表示。我们的发现表明，遮罩模型代表了在表格数据填补方面进一步研究的有前景的方向。代码已公开提供。

Sep, 2023

衡量和减轻表格生成模型的隐私风险

合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起，并通过在表格综合机上实施全面的实证分析，突出了五种最先进表格综合机的实用 - 隐私权衡，提出了一个新的差分隐私表格潜在扩散模型，称为 DP-TLDM，能够在保持可比较的隐私风险水平的同时，显著提高合成数据的实用性。

Mar, 2024

MTSMAE: 基于掩码的自编码器用于多元时间序列预测

该论文提出了一种新的基于 Masked Autoencoders (MAE) 的自监督预训练方法称为 MTSMAE，利用补丁嵌入的方法处理多元时间序列，实验证明，该方法的性能显著优于目前最好的方法。

Oct, 2022

TabMDA：使用上下文子集的 Transformers 进行任何分类器的表格流形数据增强

TabMDA 是一种用于表格数据的流形数据增强方法，利用预训练的上下文模型将数据映射到流形空间，并通过多次编码数据进行标签无关的转换，从而拓展训练数据集，为下游分类器的性能提供了一种有效的利用预训练上下文模型的方式。

Jun, 2024