树正则化的表格嵌入
本文提出了 SuperTML 方法,通过采用两维度嵌入超级字符的思想,将表格数据进行二维嵌入,然后使用 fine-tuned 二维 CNN 模型来解决分类问题。实验结果表明,该方法在大型和小型数据集上都取得了最先进的结果。
Feb, 2019
本研究利用深度学习算法构建神经网络模型,对具有层级结构的表格时间序列进行表示学习,提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型,并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。
Nov, 2020
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
提出了一种名为 Regularization Learning Networks (RLNs) 的方法,通过引入一个有效的超参数调整方案来优化 DNN 在 tabular 数据集上的性能,获得了与 GBT 相当的性能。同时,RLNs 还产生了极度稀疏的网络,消除了高达 98% 的网络边缘和 82%的输入特征,提供了更可解释的模型,并揭示了网络分配给不同输入的重要性。
May, 2018
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
本论文研究在神经网络中,如何利用 13 种正则化技术来优化多层感知机(MLP)在 40 个表格数据集上的性能,并证明了良好正则化的 MLP 可以明显优于最新的神经网络架构和传统机器学习方法。
Jun, 2021
TP-BERTa 是一种专门用于表格数据预测的预训练语言模型,通过将数值特征值转换为离散的高维标记,并使用内部特征注意方法将特征值与相应的特征名称相结合,TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越,并与梯度提升决策树模型具备竞争力。
Mar, 2024
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020
通过构建基于原始特征的非对称自编码器和对比学习,ReConTab 引入了深度自动表示学习框架,显著提高了下游任务的性能,尤其是在表格数据领域,减少了特征工程时间消耗,增强了传统方法的性能。
Oct, 2023
本文使用神经语言模型将表格数据嵌入向量空间,并将它们作为额外的语义相似性信号,应用于三种特定的表格相关任务:行填充、列填充和表检索。评估结果表明,表格嵌入可以显著提高现有基线模型的性能。
May, 2019