基因异质性分析：利用遗传算法与网络科学

Aug, 2023

基因异质性分析：利用遗传算法与网络科学

Genetic heterogeneity analysis using genetic algorithm and network science

Zhendong Sha, Yuanzhu Chen, Ting Hu

TL;DR通过基因组范围关联研究（GWAS），我们介绍了一种名为FCSNet的新型GWAS特征选择机制，该机制通过基于遗传算法（GA）的多个独立特征选择运行构建网络，并利用非线性机器学习算法检测特征交互，进一步应用于结直肠癌GWAS数据集，解释了遗传异质性。

Abstract

Through genome-wide association studies (GWAS), disease susceptible genetic variables can be identified by comparing the genetic data of individuals with and without a specific disease. However, the discovery of these associations poses a significant challenge due to →

发现论文，激发创造

应用监督学习算法和新的特征选择方法预测冠状动脉疾病

本文利用DNA位点级别上所采集的单核苷酸多态性（SNPs）数据，从数据科学的视角探讨了冠状动脉疾病的预测。研究中介绍了两种常用的监督学习算法和二维降维技术，分别进行了误差比较分析，结果表明新方法随机森林预测模型的准确率和ROC曲线的面积都比传统方法更优。

Feb, 2014

具有统计保证的条件显著特征发现

本研究旨在研究条件特征选择问题，提出了一种基于 knockoff 程序泛化的算法，在控制条件下实现特征选取并保证伪发现率，应用于基因相关研究中。

May, 2019

多视角特征选择的多目标遗传算法

本文提出一种基于遗传算法的多视图多目标特征选择方法，并针对多视图数据的分类任务，取得了优于其他方法的性能和解释性表现。

May, 2023

基因信息最大化：探索在高维成像遗传学研究中的互信息最大化

本研究从互信息的角度出发，通过识别现有方法的关键限制，引入了一种跨模态学习框架Genetic InfoMax (GIM)，包括正则化的互信息估计器和一种新颖的遗传信息变换器，以解决GWAS所面临的特定挑战。我们在人类脑3D MRI数据上评估GIM，并建立了标准化评估协议来与现有方法进行比较。我们的结果表明了GIM的有效性和在GWAS上显著提升的性能。

Sep, 2023

基于核神经网络的关联检验用于复杂遗传关联分析

利用人工智能特别是深度神经网络的进展，对基因研究进行革命性改革，试图解码基因变异与疾病表现之间复杂关系，并提升对疾病病因理解的能力。

Dec, 2023

深度学习用于高效 GWAS 特征选择

在GWAS数据中，本研究引入了一种针对超高维数据的特征选择方法，该方法利用Frobenius范数惩罚增强学生网络的适应能力，通过自动编码器或监督自动编码器进行维度约简，以及经过正则化的前馈模型进行精确特征选择，在实验中展示了其在GWAS数据特征选择中的高效性和灵活性。

Dec, 2023

不平衡遗传数据的改进分类和回归性能的数据预处理方法、特征选择技术和机器学习模型的比较分析

通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查，发现在回归任务中，异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战；而分类任务中，类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例，但其发现可推广到任何类似数据集。

Feb, 2024

利用预训练和交互建模在英国生物库中进行特定祖先疾病预测

通过使用多组学数据，我们评估了在不同祖源中改善疾病预测的可行性，研究结果表明，使用群体LASSO INTERaction-NET和预训练的LASSO在多种祖源中的疾病预测性能有所提高，但效果有限。

Apr, 2024

用于可解释无监督树集合的特征图：中心性、交互性及在疾病亚型划分中的应用

在医疗保健等高风险领域中，可以理解模型预测原理同实现高预测准确性一样重要的可解释机器学习已成为利用人工智能的核心。本研究引入了从非监督随机森林构建特征图的新方法和通过这些图派生有效特征组合的特征选择策略，通过在整个数据集和个别聚类上构造特征图，利用树中的父子节点分割，使特征的重要性与聚类任务相关，同时边权重反映特征对的判别能力，从而广泛评估了基于图的特征选择方法在合成和基准数据集上降低维度、改善聚类性能和增强模型可解释性的能力。对于疾病亚类型鉴定的组学数据应用，确定了每个聚类的顶级特征，展示了提出方法在聚类分析中提高解释性和在现实世界的生物医学应用中的实用性。

Apr, 2024

用于捕捉遗传互作的多变量全基因组关联研究的混合精度核脊回归方法

本研究解决了全基因组关联研究(GWAS)中计算效率不足的问题，提出了一种基于混合精度核脊回归(KRR)的新方法。该方法利用NVIDIA GPU的张量核心，通过重新设计计算以及引入四重精度Cholesky求解器，显著提升了解决KRR系统的速度和准确性，超越了现有的CPU-only REGENIE软件，可能对大规模遗传数据分析产生重大影响。

Sep, 2024