Sep, 2023

自助式交叉表格表示学习的扩展实验

TL;DR为了分析深度表格表示学习模型的扩展潜力,我们引入了一种专门针对表格数据的基于 Transformer 的架构,通过利用表格特定的分词器和共享的 Transformer 主干来进行交叉表格表示学习。我们的训练方法包括单表和交叉表格模型,通过自我监督的掩码式单元恢复目标进行缺失值填充。为了了解我们方法的扩展行为,我们训练了不同规模的模型,参数范围从大约 $10^4$ 到 $10^7$。这些模型在精心策划的预训练数据集上进行训练,包含来自 76 个不同数据集的 135M 个训练令牌。通过使用线性推测在精心策划的基准数据集上评估预训练模型并与传统基准进行比较,我们评估了我们架构在单表和交叉表格预训练设置中的扩展性。