TransTab: 在表格间学习可迁移的表格变换器
本研究提出了一个名为 XTab 的跨表格预训练框架,使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能,并通过联邦学习解决了跨表不一致的挑战。
May, 2023
该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战,并提出了一种名为 CT-BERT 的新型框架,同时引入了对比学习和表格建模的目标,通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。
Jul, 2023
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020
TP-BERTa 是一种专门用于表格数据预测的预训练语言模型,通过将数值特征值转换为离散的高维标记,并使用内部特征注意方法将特征值与相应的特征名称相结合,TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越,并与梯度提升决策树模型具备竞争力。
Mar, 2024
为了分析深度表格表示学习模型的扩展潜力,我们引入了一种专门针对表格数据的基于 Transformer 的架构,通过利用表格特定的分词器和共享的 Transformer 主干来进行交叉表格表示学习。我们的训练方法包括单表和交叉表格模型,通过自我监督的掩码式单元恢复目标进行缺失值填充。为了了解我们方法的扩展行为,我们训练了不同规模的模型,参数范围从大约 $10^4$ 到 $10^7$。这些模型在精心策划的预训练数据集上进行训练,包含来自 76 个不同数据集的 135M 个训练令牌。通过使用线性推测在精心策划的基准数据集上评估预训练模型并与传统基准进行比较,我们评估了我们架构在单表和交叉表格预训练设置中的扩展性。
Sep, 2023
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
使用自监督学习的 TabTransformer 模型,通过描述一种新颖的表格数据训练方法,提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法,研究结果显示 TabTransformer 在表格数据上的性能优势。
Jan, 2024
TabRet 是一种用于表格数据的可预训练的基于 Transformer 模型的模型。它通过用自动编码损失校准特征嵌入来调整特征嵌入,并在分类任务上获得最佳性能,预训练数据是公共卫生调查。
Mar, 2023
预定深度学习模型、表格数据、数据集成、神经网络架构、CARTE 等是该论文的关键词,并且 CARTE 是可用于表格数据的大型预训练模型的一种神经网络架构。
Feb, 2024
本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题,并开发了一种专用的表格数据增强策略来提高性能,实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。
Sep, 2022