SwitchTab:交换式自编码器是有效的表格学习模型
使用自监督学习的 TabTransformer 模型,通过描述一种新颖的表格数据训练方法,提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法,研究结果显示 TabTransformer 在表格数据上的性能优势。
Jan, 2024
本文介绍了一种新框架 SubTab, 通过将输入特征分成多个子集,将学习表格数据的任务转化为多视图表示学习问题,从而捕捉其潜在的潜在表示。在 MNIST 数据集上,SubTab 取得了 98.31%的表现,与 CNN 的最新结果持平,并在三个其他真实数据集上超过了现有基线。
Oct, 2021
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020
通过研究表格数据中自我监督学习不平衡,尤其是在图像数据集中,看到现有研究主要集中在图像数据集,本文旨在填补这一空白,着重探讨自我监督学习在表格数据领域中因数据不平衡而带来的具体挑战,重点关注自编码器。我们分析了目前使用一个热编码器和标准损失函数(MSE 或交叉熵)对混合表格数据进行编码的方法的缺点,特别是在分类变量不平衡时。我们提出了一种新的平衡学习的度量方法:多重监督平衡 MSE。这种方法通过平衡变量的影响来减少重构误差。最后,我们通过实验证明了这种新度量方法相比于标准 MSE,在数据集不平衡且学习过程不充分时表现更好,并在相反情况下提供类似的结果。
Mar, 2024
本研究提出了一个名为 XTab 的跨表格预训练框架,使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能,并通过联邦学习解决了跨表不一致的挑战。
May, 2023
通过构建基于原始特征的非对称自编码器和对比学习,ReConTab 引入了深度自动表示学习框架,显著提高了下游任务的性能,尤其是在表格数据领域,减少了特征工程时间消耗,增强了传统方法的性能。
Oct, 2023
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
本研究提出了一种新的、高性能和可解释的深度表格数据学习架构 TabNet,采用顺序注意方法在每个决策步骤中选择推理特征,实现了可解释性和更高效的学习。我们证明,在各种非性能饱和表格数据集上,TabNet 胜过其他神经网络和决策树变体,并提供了可解释的特征归因和对全局模型行为的深入认识。最后,我们首次在表格数据上展示了自监督学习,在未标记的数据丰富情况下显著提高了性能。
Aug, 2019
该研究论文提出了一种名为转移性表格变压器(TransTab)的新方法,该方法通过将表格中的每个样本(即行)转换为可推广的嵌入向量,然后应用堆叠的变压器进行特征编码,来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测,并对预训练模型的性能进行了分析和比较。
May, 2022
通过提出一种基于矩阵多项式的自注意力层作为替代,我们改善了 Transformer 在表格数据中存在的平滑问题,并展示该层能够提高表格数据的表示性能,胜过现有方法。
Dec, 2023