Jan, 2024

发掘多机构数据的力量:整合和协调跨机构的基因组数据

TL;DR癌症是由基因组变异驱动的复杂疾病,肿瘤测序成为癌症患者临床护理的核心,多机构测序数据的出现为增强精准肿瘤学提供了有力资源。然而,利用这种多机构测序数据面临着重大挑战,包括基因面板的差异导致常见基因集上信息的丢失,测序技术和机构间患者异质性的差异增加了复杂性,高数据维度、稀疏基因突变模式和个体基因水平的弱信号进一步复杂化了情况。为了克服这些实际挑战,我们介绍了 Bridge 模型,它采用分位匹配的潜变量方法来获得整合特征,以保留超出常见基因之外的信息,并最大限度地利用所有可用的数据,同时利用信息共享来增强学习效率和模型的泛化能力。通过提取协调和去噪的低维潜变量,捕捉到了每个个体独特的真实突变模式。我们通过广泛的模拟研究评估了模型的性能和参数估计,从 Bridge 模型中提取的潜变量特征在 GENIE BPC 数据中始终表现出色,可以预测六种癌症类型中的患者生存情况。