基因表达数据分析的计算学习方法综述

Feb, 2022

基因表达数据分析的计算学习方法综述

A comprehensive survey on computational learning methods for analysis of gene expression data

Nikita Bhandari, Rahee Walambe, Ketan Kotecha, Satyajeet Khare

TL;DR本综述介绍了基因表达分析中使用的各种统计和计算工具，以及在数据预处理和分析方面如数据归一化、特征选择和分类等方面的方法和技术，并重点讨论了这些工具的应用。

Abstract

computational analysis methods including machine learning have a significant impact in the fields of genomics and medicine. High-throughput gene expression analysis methods such as →

computational analysis gene expression analysis rna sequencing microarray technology machine learning

发现论文，激发创造

基于统计和机器学习方法的基因表达谱分析的比较分析

机器学习模型在表达基因数据的表型分类方面取得了好的性能，通过提取决策的解释，这些模型能提供对表型的理解，讨论了这种解释的生物学和方法论限制，并在癌症和健康组织样本的多个数据库上进行了实验。

Feb, 2024

从微阵列数据选择嵌套相关基因群的规范化方法

本文提出了一种两阶段正则化方法，能够学习具有高预测性能的线性模型，产生几乎完美嵌套的基因列表以及适合进一步生物学研究，在合成和微阵列数据上的实验结果证实了该方法的有趣性质和潜在性。

Sep, 2008

基因组和临床数据的理论与数据驱动建模的流水线

本文提出了一种通过将表型，环境和行为数据与基因组数据整合的流程，使用一种概率图模型来理解数据中特征之间的关系，并展示了该流程如何改善乳腺癌预测模型，提供一种生物学可解释性的视图。

May, 2020

生物和医学数据集成的机器学习：原理、实践和机遇

本综述介绍了多种技术在生物医学领域上的成功应用，讨论了数据整合的原则、当前方法和可用的实现，探讨了综合方法的挑战和未来发展方向。

Jun, 2018

通过整合背景知识图谱实现基因表达分类的端到端框架：应用于癌症预后预测

本研究提出了一种利用背景生物网络信息来构建分类模型的端对端框架，应用于基因表达数据和生物网络来进行癌症预后预测，实验结果表明相比于深度神经网络模型，我们的模型取得了更高的准确性，并通过富集分析鉴定了多种癌症类型的贡献基因和通路，从中识别了已知的生物标志和新的生物标志候选物。

Jun, 2023

基因聚类的自然语言处理

本文提出一种使用 BERT 和文本处理方法编码基因功能，并将其进行多维数据降维和聚类，以优化 mRNA 测序中基因数据分析流程的方法。通过对 180 种不同方法的性能评估选择最高效的流程，并通过聚类指数和专家评审进行了评估。

Jul, 2022

基因微阵列数据的双向聚类分析

本文介绍了一种新颖的双向耦合聚类方法，用于基因芯片数据的分析：通过基于迭代聚类的算法，找到适合聚类的基因和样本的子集，从而发现在纯数据聚类时被掩盖和隐藏的新的数据分区和相关性；本方法被应用于两个基因芯片数据集，包括结肠癌和白血病数据集。

Apr, 2000

不平衡遗传数据的改进分类和回归性能的数据预处理方法、特征选择技术和机器学习模型的比较分析

通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查，发现在回归任务中，异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战；而分类任务中，类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例，但其发现可推广到任何类似数据集。

Feb, 2024

利用融合 SVM 对基因组阵列 CGH 数据进行分类

本文提出了一种基于支持向量机的新方法，该方法将基因组的特定结构信息作为先验信息加入分类器。实验表明，该方法不仅可以提高分类精度，而且在癌症诊断过程中，可以帮助鉴别基因组中感兴趣的新区域。

Jan, 2008

基于基因表达数据的科学发现的 AI 科学家团队

利用团队人工智能科学家的新框架，通过机器学习大语言模型协同工作以提高科学探索的效率和范围，实现自动化科学发现。这一框架以疾病预测基因鉴定为重点，并使用一个参考数据集评估其有效性。

Feb, 2024