基于元表示的异构表格数据无需训练的泛化

Oct, 2023

基于元表示的异构表格数据无需训练的泛化

Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation

Han-Jia Ye, Qi-Le Zhou, De-Chuan Zhan

TL;DR通过元表示的基于预训练的表格数据（TabPTM）模型，可以有效地应用于具有不同属性和类别空间的异构数据集，从而实现无需额外训练的泛化能力。

Abstract

tabular data is prevalent across various machine learning domains. Yet, the inherent heterogeneities in attribute and class spaces across different tabular datasets hinder the effective sharing of knowledge, limiting a tabular model to benefit from other datasets. In this paper, we pro

tabular data pre-training meta-representation heterogeneous datasets generalization

发现论文，激发创造

使用预训练语言模型建模表格数据

通过引入预训练语言模型（PTM）和三个处理阶段（MT、MF、CF），提出了一种新的名为 PTab 的框架，以将预训练模型用于建模表格数据，并取得比现有技术更好的分类效果。

Sep, 2022

CT-BERT：通过跨表格预训练学习更好的表格表示

该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战，并提出了一种名为 CT-BERT 的新型框架，同时引入了对比学习和表格建模的目标，通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。

Jul, 2023

XTab：跨表预训练技术用于表格 Transformer 模型

本研究提出了一个名为 XTab 的跨表格预训练框架，使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能，并通过联邦学习解决了跨表不一致的挑战。

May, 2023

TABBIE：表格数据的预训练表示

通过自我学习目标函数和预训练语言模型（如 BERT）对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务（例如回答关于表格的问题）的性能，但在没有任何相关文本的情况下处理表格的任务（例如填充缺失的单元格）时表现不佳。我们提出了一种简单的预训练目标（损坏单元格检测），该预训练目标只是从表格数据中学习，并且在一套基于表格的预测任务上达到了最先进的水平，从而超过了竞争方法。与其他方法不同，我们的模型（TABBIE）提供了所有表子结构（单元格、行和列）的嵌入，并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析，结果表明它可以理解复杂的表语义和数字趋势。

May, 2021

跨表预训练：面向异构表格数据的通用函数空间

本研究通过引入一种跨表预训练的 Transformer 模型（XTFormer），填补了现有的跨表数据预测任务中可重复模式有限且数据稀缺的空白。实验结果显示，在 190 项下游表格预测任务中，我们的 XTFormer 在 137 项（72%）任务上胜过 XGBoost 和 Catboost，并且在 144 项（76%）和 162 项（85%）任务上超过了具有代表性的深度学习模型 FT-Transformer 和表格预训练方法 XTab。

Jun, 2024

TransTab: 在表格间学习可迁移的表格变换器

该研究论文提出了一种名为转移性表格变压器（TransTab）的新方法，该方法通过将表格中的每个样本（即行）转换为可推广的嵌入向量，然后应用堆叠的变压器进行特征编码，来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测，并对预训练模型的性能进行了分析和比较。

May, 2022

提升预训练语言模型在表格预测任务中的性能

TP-BERTa 是一种专门用于表格数据预测的预训练语言模型，通过将数值特征值转换为离散的高维标记，并使用内部特征注意方法将特征值与相应的特征名称相结合，TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越，并与梯度提升决策树模型具备竞争力。

Mar, 2024

面向所有时间序列的单一 Transformer：使用时间相关异构列表数据进行表征和训练

本文提出了一种 Transformer 架构以表示混杂的时间依赖型表格数据，其中数值特征使用一组频函数表示，并且整个网络使用唯一的损失函数均匀训练。

Feb, 2023

超参数优化中基于编码器的预热方法的再思考

这项研究提出了一种基于编码器的异构表格数据表示方法，它通过自动提取重要的元特征来代替以往依赖预定义的元特征的方法，该方法在整合数据集和超参数优化暖启动等两个常见元任务中与 Dataset2Vec 和 liltab 在元 MIMIC 数据集上的评估显示了表示学习中细微挑战的存在。

Mar, 2024

深度神经网络与表格数据：一份调查报告

本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用，主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨，并且在 5 个不同的实际数据集上，将传统机器学习方法与 11 种深度学习方法进行了实证比较，结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法，提示相关研究有点停滞不前。

Oct, 2021