利用预训练和交互建模在英国生物库中进行特定祖先疾病预测

Apr, 2024

利用预训练和交互建模在英国生物库中进行特定祖先疾病预测

Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank

Thomas Le Menestrel, Erin Craig, Robert Tibshirani, Trevor Hastie, Manuel Rivas

TL;DR通过使用多组学数据，我们评估了在不同祖源中改善疾病预测的可行性，研究结果表明，使用群体 LASSO INTERaction-NET 和预训练的 LASSO 在多种祖源中的疾病预测性能有所提高，但效果有限。

Abstract

Recent genome-wide association studies (GWAS) have uncovered the genetic basis of complex traits, but show an under-representation of non-European descent individuals, underscoring a critical gap in genetic research. Here, we assess whether we can improve →

genome-wide association studies non-european descent individuals multiomic data group-lasso interaction-net disease prediction

发现论文，激发创造

GWAS 的深度可解释性

本文探讨了基因组关联研究中的线性模型与深度网络模型的优缺点，并提出了一种基于 DeepLIFT 技术的方法，可以识别出已知和可能的糖尿病遗传风险因素。

Jul, 2020

多变量回归方法在定量性状网络关联分析中的应用

该研究提出了一种名为图引导融合套索（GFlasso）的新的统计框架，通过将量化特征的相关性结构表示为网络，并利用该特征网络在基因型和特征上编码结构正则化，以便高灵敏度和特异性地检测共同影响高度相关特征子组的遗传标记。

Nov, 2008

基于网络的疾病 - 基因预测方法

利用人类相互作用网络，采用联合学习功能和蛋白质周围的连通性模式的方法预测疾病基因关系。我们提出了 Random Watcher-Walker（$RW^2$）的扩展版本，成功地与已知最佳系统和其他最先进的基于图形的方法进行比较。与以前的研究相反，我们的研究结果表明，仅有连接性无法足以分类与疾病有关的基因。

Feb, 2019

在明确的因果假设下评估真实世界基因分型数据预测抗菌药物耐受性的潜在偏见

该研究针对细菌基因型 - 表型抗菌药物抵抗性数据进行试验，使用倾向性平衡和混杂变量调整方法处理非随机抽样带来的偏倚，采用提升的逻辑回归和随机森林模型，对抗菌药物抵抗性的预测性能进行评估。结果表明在采样非随机、基因特征与抗药性之间存在关联时，使用该方法可优化预测模型。

Jul, 2021

LMM-Lasso: 带人群结构校正的 Lasso 多标记混合模型关联分析

该研究提出了 LMM-Lasso，一种混合模型，可以进行多基因映射和校正混杂效应，能够大幅提高遗传可遗性，同时更有可能检索到真实的关联，实践中在拟南芥和小鼠的数据中找到 91% 的表型变异的遗传原因。

May, 2012

深度神经网络改进乳腺癌多基因风险评分的估计

通过比较计算模型，本研究发现深度神经网络 (DNN) 在估计乳腺癌多基因风险评分 (PRS) 方面胜过其他机器学习技术和统计算法，包括 BLUP、BayesA 和 LDpred。DNN 能够将案例人群分为高基因风险和正常基因风险两个亚群，并准确预测疾病风险，其中 DNN 在 50% 患病率测试样本中实现了 18.8% 的召回率和 90% 的精确度，可推广至 12% 患病率的一般人群中的 20% 精确度下达到 65.4% 的召回率。此外，通过 DNN 模型的解释还发现了在关联研究中被赋予不显著 p 值的重要变异体，这些变异体可能通过非线性关系与表型相关联。

Jul, 2023

结构化人群的遗传变异概率模型应用于全球人类研究

本文提出两种概率模型：一种是利用主成分分析（PCA）实现 Pritchard-Stephens-Donnelly 混合成员模型的估计，另一种是基于人口结构模型的概率模型的新 “逻辑因子分析”（LFA）框架的提出，这些模型较少地提出了建模假设，而这些模型能识别与结构存在高度分化的 SNPs。

Dec, 2013

生物医学中的标签稀缺问题：数据丰富的潜在因子发现提升表型预测

从英国生物库人群数据集中派生低维嵌入空间可用于改善具有可观数据稀缺性的特定疾病的监督估计器，这会对各种医学数据科学应用程序产生重要影响。

Oct, 2021

基因组关联研究的隐式因果模型

本次研究主要集中于建立更为丰富的因果模型，以此来解决基因因素与人类主要疾病之间的因果关系等问题，并且采用了现代概率建模的思想，如采用神经结构并结合隐式条件来建立该模型。

Oct, 2017

组织特异性多组学图表示学习

本研究利用图嵌入模型（即 VGAE）对组织特异性基因基因相互作用网络进行链接预测。经过消融实验，我们证明了多个生物模态（即多组学）的组合会导致更强大的嵌入并提高链接预测性能。我们的结果表明，基因甲基化和 RNA 测序数据的整合显着提高了链接预测性能。总体而言，RNA 测序和基因甲基化数据的组合使得基因基因相互作用网络上的链接预测准确率达到了 71％。本研究通过对多组学数据的图表示学习，为当前有关生物信息学中多组学整合研究带来了新的见解。

Jul, 2021