Nov, 2023

低标签、高数据情境下的多组学嵌入自监督学习

TL;DR利用对比式自监督学习训练预训练的 FT-Transformer 模型,从 miRNA、mRNA 或 RPPA 表达数据中预测癌症类型。当标记样本稀缺而未标记样本众多时,相比标准的表格数据基准(XGBoost 和 CatBoost),该模型表现更好。我们还探讨了多模态模型的自监督学习,提出了一种后融合模型,其中每个组学通过自己的子网络进行处理,子网络输出求平均并传递给预训练或下游目标函数。实验证明多模态预训练可以提高单一组学的预测效果,并且对于未标记的多模态样本丰富而标记的单一组学样本稀缺的数据集,这是有用的。另外,我们还展示了分别对每个组学特定模块进行预训练的高效性。这使得该模型可以应用于大量未标记数据可用于每个组学的各种情境,但只有少数带标签样本的情况。