CARTE:表格学习的预训练与迁移
该研究论文提出了一种名为转移性表格变压器(TransTab)的新方法,该方法通过将表格中的每个样本(即行)转换为可推广的嵌入向量,然后应用堆叠的变压器进行特征编码,来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测,并对预训练模型的性能进行了分析和比较。
May, 2022
该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战,并提出了一种名为 CT-BERT 的新型框架,同时引入了对比学习和表格建模的目标,通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。
Jul, 2023
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
TP-BERTa 是一种专门用于表格数据预测的预训练语言模型,通过将数值特征值转换为离散的高维标记,并使用内部特征注意方法将特征值与相应的特征名称相结合,TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越,并与梯度提升决策树模型具备竞争力。
Mar, 2024
通过将决策树集成到神经网络的架构中,我们提出了一种新颖的可解释性神经网络,名为 NCART,以克服深度学习方法在大规模、高维数据集和小规模数据集方面的计算效率和解释性不足的问题。与传统的深度学习模型相比,NCART 架构简单,适用于各种规模的数据集,并降低了计算成本。大量的实验结果表明,NCART 与现有的深度学习模型相比,具有优越的性能,是决策树模型的强有力竞争对手。
Jul, 2023
本研究提出了一个名为 XTab 的跨表格预训练框架,使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能,并通过联邦学习解决了跨表不一致的挑战。
May, 2023
本文提出了一种基于深度学习的表格数据处理模型 SAINT,该模型利用注意力机制同时考虑行和列信息,并使用先进的嵌入方法以及自监督预训练方法,实现了在有限标签数据下取得了与传统机器学习方法(包括 XGBoost、CatBoost 和 LightGBM)相当的准确率。
Jun, 2021
通过引入预训练语言模型(PTM)和三个处理阶段(MT、MF、CF),提出了一种新的名为 PTab 的框架,以将预训练模型用于建模表格数据,并取得比现有技术更好的分类效果。
Sep, 2022