TabRet:针对未知列预训练基于 Transformer 的表格模型
该研究论文提出了一种名为转移性表格变压器(TransTab)的新方法,该方法通过将表格中的每个样本(即行)转换为可推广的嵌入向量,然后应用堆叠的变压器进行特征编码,来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测,并对预训练模型的性能进行了分析和比较。
May, 2022
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020
本研究提出了一个名为 XTab 的跨表格预训练框架,使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能,并通过联邦学习解决了跨表不一致的挑战。
May, 2023
TabToken 是一种用于改进表格数据特征令牌质量的方法,通过引入对比学习目标来使预训练模型在具有重叠特征的上下游任务中有效地微调模型的其余部分,从而实现从预训练模型到具有异构特征的任务的知识迁移,并增强深度表格模型在标准分类和回归任务中的区分能力。
Oct, 2023
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
通过引入预训练语言模型(PTM)和三个处理阶段(MT、MF、CF),提出了一种新的名为 PTab 的框架,以将预训练模型用于建模表格数据,并取得比现有技术更好的分类效果。
Sep, 2022
为了分析深度表格表示学习模型的扩展潜力,我们引入了一种专门针对表格数据的基于 Transformer 的架构,通过利用表格特定的分词器和共享的 Transformer 主干来进行交叉表格表示学习。我们的训练方法包括单表和交叉表格模型,通过自我监督的掩码式单元恢复目标进行缺失值填充。为了了解我们方法的扩展行为,我们训练了不同规模的模型,参数范围从大约 $10^4$ 到 $10^7$。这些模型在精心策划的预训练数据集上进行训练,包含来自 76 个不同数据集的 135M 个训练令牌。通过使用线性推测在精心策划的基准数据集上评估预训练模型并与传统基准进行比较,我们评估了我们架构在单表和交叉表格预训练设置中的扩展性。
Sep, 2023
本研究旨在将预训练模型的能力扩展到传统上被忽视但本质上具有挑战性的表格数据领域,并介绍了一种名为 UniTabE 的先进方法,能够以一致的方式处理表格数据,通过预训练和微调来提高语义表达效果。
Jul, 2023
本文提出了一种基于自学习的检索增强型 Transformer 模型,其用于自动数据整理以减轻数据分析师的工作量,实现适用于动态数据视图的表格数据的结构化与数据补全,数据的预处理是实现分析或构建机器学习模型时最昂贵和耗时的步骤之一。
Jun, 2023
本文介绍了 TabMT,一种用于生成合成表格数据的新型掩码 Transformer 设计,它有效应对异构数据字段带来的独特挑战,并能够处理缺失数据。我们评估了 TabMT 在以保护隐私为重点的应用中的性能,并发现它能够生成具有优越隐私权衡的高质量数据。
Dec, 2023