从微阵列数据选择嵌套相关基因群的规范化方法
机器学习模型在表达基因数据的表型分类方面取得了好的性能,通过提取决策的解释,这些模型能提供对表型的理解,讨论了这种解释的生物学和方法论限制,并在癌症和健康组织样本的多个数据库上进行了实验。
Feb, 2024
本文介绍了一种新颖的双向耦合聚类方法,用于基因芯片数据的分析:通过基于迭代聚类的算法,找到适合聚类的基因和样本的子集,从而发现在纯数据聚类时被掩盖和隐藏的新的数据分区和相关性;本方法被应用于两个基因芯片数据集,包括结肠癌和白血病数据集。
Apr, 2000
提出了一种新的方法 remMap-- 用于在高维低样本大小的情况下拟合多元响应回归模型的正则化多元回归方法,它的目的是基于多种类型的高维基因组数据研究不同生物分子之间的调节关系。该方法不仅可以有效解决高维问题,而且可以考虑网络建模和基因变异等问题。通过大量的模拟研究和应用于乳腺癌数据的实证研究,可以发现 remMap 方法可以鉴别出影响多个基因 RNA 表达水平的 DNA 复制数变化的热点区域,从而更好地理解乳腺癌的病理学。
Dec, 2008
本综述介绍了基因表达分析中使用的各种统计和计算工具,以及在数据预处理和分析方面如数据归一化、特征选择和分类等方面的方法和技术,并重点讨论了这些工具的应用。
Feb, 2022
该研究提出了一种深度生成式机器学习架构(称为 DeepCancer),通过对未标记的微阵列数据进行特征学习,帮助对癌症进行诊断。该模型在两个不同的临床数据集上进行了测试,并证明了其精确度较高,可显著控制假阳性和假阴性评分。
Dec, 2016
提出了一种基于 Bayesian 方法的计算模型,用于从基因表达的高通量遗传数据中发现基因之间的局部因果关系。模型的应用结果表明,可以从稳定且保守的局部因果结构后验概率中推导出最有意义的调控关系。
Sep, 2019
本研究提出了一种新的方法,使用基因表达数据进行癌症分类问题的解决,首先运用信噪比算法筛选出非冗余基因的子集,然后运用多目标粒子群算法进行特征选择,并采用自适应 K 最近邻算法进行癌症分类,从而提高了癌症分类的准确性。
May, 2022
该研究提出了一种名为图引导融合套索(GFlasso)的新的统计框架,通过将量化特征的相关性结构表示为网络,并利用该特征网络在基因型和特征上编码结构正则化,以便高灵敏度和特异性地检测共同影响高度相关特征子组的遗传标记。
Nov, 2008