TIP: 针对不完整数据的多模态分类的表格图像预训练
本文介绍了一种新框架SubTab, 通过将输入特征分成多个子集,将学习表格数据的任务转化为多视图表示学习问题,从而捕捉其潜在的潜在表示。在MNIST数据集上,SubTab取得了98.31%的表现,与CNN的最新结果持平,并在三个其他真实数据集上超过了现有基线。
Oct, 2021
该研究介绍了一种结合SimCLR和SCARF的自监督对比学习框架,使用心脏MR图像和120项临床特征预测冠状动脉疾病风险,并展示了标签作为特征的监督式对比学习的性能。
Mar, 2023
本综述论文介绍了自监督多模态学习(SSML)的现状和最新进展,对其目标函数、数据对准和模型架构三个方面进行分类,讨论了训练期间的多模态输入数据配对和对准策略,并回顾了用于图像文本和多模态视频的顶尖模型的具体表现及其在医疗保健、遥感和机器翻译等领域的实际应用。
Mar, 2023
本研究提出了一个名为XTab的跨表格预训练框架,使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能,并通过联邦学习解决了跨表不一致的挑战。
May, 2023
SwitchTab是一种新颖的自我监督方法,专门用于捕捉表格数据中的潜在依赖关系,并通过使用经过预训练的鲜明嵌入来提高下游任务的性能,同时可通过可视化来创建可解释的表示。
Jan, 2024
在表格领域中,我们提出了一种基于经典分箱方法的新型预训练任务,通过重构分箱索引而不是原始值,为编码器提供一种归纳偏置以捕捉不规则依赖关系,并通过将所有特征设置为具有类别型目标来减轻特征的异质性。通过对多样的表格数据集的全面评估,我们的方法始终改善了表格表示学习在各种下游任务中的性能表现。
May, 2024
通过提取TabLib语料库中的一个大规模高质量训练数据集,我们针对表格数据预测问题,使用Llama 3-8B大型语言模型(LLM)进行微调,并采用一种新颖的填充和注意力机制,实现了在未见过的表格上的零样本准确率超过随机猜测15个百分点以上的TabuLa-8B,以及在少样本情况下比XGBoost和TabPFN模型更准确的能力。
Jun, 2024
综合利用预训练模型参数高效微调和自监督联合嵌入学习方法,本文提出了一种解决多模态学习中缺失模态问题的新框架,通过利用可用模态的信息,该框架使模型能够在推理期间在表示空间中预测缺失模态的嵌入,在多个多模态基准数据集上评估方法,展示了它在各种缺失模态的情景中的有效性和鲁棒性。
Jul, 2024
本研究解决了神经网络在处理表格数据时面临的挑战,提出了一种基于上下文学习(ICL)的新方法,通过自监督学习和检索技术训练特定于表格的数据架构。实验结果表明,TabDPT模型在CC18和CTR23基准上取得了最先进的性能,显示了其在适应新任务和快速推理方面的优越性,同时还具备良好的扩展性。
Oct, 2024