基因表达数据分析的计算学习方法综述
机器学习模型在表达基因数据的表型分类方面取得了好的性能,通过提取决策的解释,这些模型能提供对表型的理解,讨论了这种解释的生物学和方法论限制,并在癌症和健康组织样本的多个数据库上进行了实验。
Feb, 2024
本文提出了一种两阶段正则化方法,能够学习具有高预测性能的线性模型,产生几乎完美嵌套的基因列表以及适合进一步生物学研究,在合成和微阵列数据上的实验结果证实了该方法的有趣性质和潜在性。
Sep, 2008
本文提出了一种通过将表型,环境和行为数据与基因组数据整合的流程,使用一种概率图模型来理解数据中特征之间的关系,并展示了该流程如何改善乳腺癌预测模型,提供一种生物学可解释性的视图。
May, 2020
本研究提出了一种利用背景生物网络信息来构建分类模型的端对端框架,应用于基因表达数据和生物网络来进行癌症预后预测,实验结果表明相比于深度神经网络模型,我们的模型取得了更高的准确性,并通过富集分析鉴定了多种癌症类型的贡献基因和通路,从中识别了已知的生物标志和新的生物标志候选物。
Jun, 2023
本文提出一种使用 BERT 和文本处理方法编码基因功能,并将其进行多维数据降维和聚类,以优化 mRNA 测序中基因数据分析流程的方法。通过对 180 种不同方法的性能评估选择最高效的流程,并通过聚类指数和专家评审进行了评估。
Jul, 2022
本文介绍了一种新颖的双向耦合聚类方法,用于基因芯片数据的分析:通过基于迭代聚类的算法,找到适合聚类的基因和样本的子集,从而发现在纯数据聚类时被掩盖和隐藏的新的数据分区和相关性;本方法被应用于两个基因芯片数据集,包括结肠癌和白血病数据集。
Apr, 2000
通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查,发现在回归任务中,异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战;而分类任务中,类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例,但其发现可推广到任何类似数据集。
Feb, 2024
本文提出了一种基于支持向量机的新方法,该方法将基因组的特定结构信息作为 先验信息加入分类器。 实验表明,该方法不仅可以提高分类精度,而且在癌症诊断过程中,可以帮助鉴别基因组中感兴趣的新区域。
Jan, 2008
利用团队人工智能科学家的新框架,通过机器学习大语言模型协同工作以提高科学探索的效率和范围,实现自动化科学发现。这一框架以疾病预测基因鉴定为重点,并使用一个参考数据集评估其有效性。
Feb, 2024