基因异质性分析:利用遗传算法与网络科学
本文利用DNA位点级别上所采集的单核苷酸多态性(SNPs)数据,从数据科学的视角探讨了冠状动脉疾病的预测。研究中介绍了两种常用的监督学习算法和二维降维技术,分别进行了误差比较分析,结果表明新方法随机森林预测模型的准确率和ROC曲线的面积都比传统方法更优。
Feb, 2014
本研究从互信息的角度出发,通过识别现有方法的关键限制,引入了一种跨模态学习框架Genetic InfoMax (GIM),包括正则化的互信息估计器和一种新颖的遗传信息变换器,以解决GWAS所面临的特定挑战。我们在人类脑3D MRI数据上评估GIM,并建立了标准化评估协议来与现有方法进行比较。我们的结果表明了GIM的有效性和在GWAS上显著提升的性能。
Sep, 2023
在GWAS数据中,本研究引入了一种针对超高维数据的特征选择方法,该方法利用Frobenius范数惩罚增强学生网络的适应能力,通过自动编码器或监督自动编码器进行维度约简,以及经过正则化的前馈模型进行精确特征选择,在实验中展示了其在GWAS数据特征选择中的高效性和灵活性。
Dec, 2023
通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查,发现在回归任务中,异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战;而分类任务中,类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例,但其发现可推广到任何类似数据集。
Feb, 2024
通过使用多组学数据,我们评估了在不同祖源中改善疾病预测的可行性,研究结果表明,使用群体LASSO INTERaction-NET和预训练的LASSO在多种祖源中的疾病预测性能有所提高,但效果有限。
Apr, 2024
在医疗保健等高风险领域中,可以理解模型预测原理同实现高预测准确性一样重要的可解释机器学习已成为利用人工智能的核心。本研究引入了从非监督随机森林构建特征图的新方法和通过这些图派生有效特征组合的特征选择策略,通过在整个数据集和个别聚类上构造特征图,利用树中的父子节点分割,使特征的重要性与聚类任务相关,同时边权重反映特征对的判别能力,从而广泛评估了基于图的特征选择方法在合成和基准数据集上降低维度、改善聚类性能和增强模型可解释性的能力。对于疾病亚类型鉴定的组学数据应用,确定了每个聚类的顶级特征,展示了提出方法在聚类分析中提高解释性和在现实世界的生物医学应用中的实用性。
Apr, 2024
本研究解决了全基因组关联研究(GWAS)中计算效率不足的问题,提出了一种基于混合精度核脊回归(KRR)的新方法。该方法利用NVIDIA GPU的张量核心,通过重新设计计算以及引入四重精度Cholesky求解器,显著提升了解决KRR系统的速度和准确性,超越了现有的CPU-only REGENIE软件,可能对大规模遗传数据分析产生重大影响。
Sep, 2024