XTab:跨表预训练技术用于表格 Transformer 模型
本研究通过引入一种跨表预训练的 Transformer 模型(XTFormer),填补了现有的跨表数据预测任务中可重复模式有限且数据稀缺的空白。实验结果显示,在 190 项下游表格预测任务中,我们的 XTFormer 在 137 项(72%)任务上胜过 XGBoost 和 Catboost,并且在 144 项(76%)和 162 项(85%)任务上超过了具有代表性的深度学习模型 FT-Transformer 和表格预训练方法 XTab。
Jun, 2024
该研究论文提出了一种名为转移性表格变压器(TransTab)的新方法,该方法通过将表格中的每个样本(即行)转换为可推广的嵌入向量,然后应用堆叠的变压器进行特征编码,来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测,并对预训练模型的性能进行了分析和比较。
May, 2022
该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战,并提出了一种名为 CT-BERT 的新型框架,同时引入了对比学习和表格建模的目标,通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。
Jul, 2023
为了分析深度表格表示学习模型的扩展潜力,我们引入了一种专门针对表格数据的基于 Transformer 的架构,通过利用表格特定的分词器和共享的 Transformer 主干来进行交叉表格表示学习。我们的训练方法包括单表和交叉表格模型,通过自我监督的掩码式单元恢复目标进行缺失值填充。为了了解我们方法的扩展行为,我们训练了不同规模的模型,参数范围从大约 $10^4$ 到 $10^7$。这些模型在精心策划的预训练数据集上进行训练,包含来自 76 个不同数据集的 135M 个训练令牌。通过使用线性推测在精心策划的基准数据集上评估预训练模型并与传统基准进行比较,我们评估了我们架构在单表和交叉表格预训练设置中的扩展性。
Sep, 2023
通过引入预训练语言模型(PTM)和三个处理阶段(MT、MF、CF),提出了一种新的名为 PTab 的框架,以将预训练模型用于建模表格数据,并取得比现有技术更好的分类效果。
Sep, 2022
使用自监督学习的 TabTransformer 模型,通过描述一种新颖的表格数据训练方法,提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法,研究结果显示 TabTransformer 在表格数据上的性能优势。
Jan, 2024
该论文提出了 TapTap,利用表格预训练生成高质量的合成表格,支持各种基于表格数据的应用,通过广泛的实验验证其在 12 个数据集上的性能大大优于 16 种基线,并可轻松与各种基础模型相结合,是合成表格数据生成发展中的一个里程碑。
May, 2023
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020