不平衡遗传数据的改进分类和回归性能的数据预处理方法、特征选择技术和机器学习模型的比较分析

Feb, 2024

不平衡遗传数据的改进分类和回归性能的数据预处理方法、特征选择技术和机器学习模型的比较分析

Comparative Analysis of Data Preprocessing Methods, Feature Selection Techniques and Machine Learning Models for Improved Classification and Regression Performance on Imbalanced Genetic Data

PDF

Arshmeet Kaur, Morteza Sarmadi

TL;DR通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查，发现在回归任务中，异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战；而分类任务中，类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例，但其发现可推广到任何类似数据集。

Abstract

Rapid advancements in genome sequencing have led to the collection of vast amounts of genomics data. Researchers may be interested in using machine learning models on such data to predict the pathogenicity or clinical significance of a genetic mutation. However, many genetic datasets c

genome sequencing machine learning models imbalanced target variables data preprocessing random forest

发现论文，激发创造

机器学习分类算法的比较及其在弗雷明翰心脏研究中的应用

利用机器学习算法在医疗保健领域可能会放大社会不公和卫生不平等问题；本研究关注于机器学习分类算法在开发和使用过程中遇到的一些普遍性障碍，通过以弗雷明汉冠心病数据为案例，说明了如何选择概率阈值将回归模型转换为分类器，并比较了八种常用机器学习分类算法在不同训练 / 测试场景下的预测性能，以测试它们的普适性和可能引发的偏见问题；得到的研究结果表明，XGBoost 和支持向量机在不平衡数据集上训练存在缺陷，而双重判别式为 I 型是最具普适性的，它在各种训练 / 测试场景下都始终优于其他分类算法；最后，提出了一种用于分类算法的最佳变量层次结构提取方法，并以全量数据、男性和女性的弗雷明汉心脏病数据进行了说明。

Feb, 2024

应用数据工程方法解决微生物组数据挑战，以实现最优医疗决策

本研究利用数据工程算法解决肠道菌群数据的类别不平衡和高维问题，应用多个机器学习分类器以进行宿主表型的分类，表现出具有高预测准确率的优越性，并采用主成分分析（PCA）大大减少了测试时间。研究表明，微生物特征在物种级别上的分类精度最高，该原型对于实现个性化医疗具有很高的潜在价值。

Jun, 2023

预测基因突变的功能丧失影响：一种机器学习方法

本文研究了利用下一代测序技术进行基因组测序以及使用机器学习模型预测 LoFtool 分数和基因突变的相关特性，通过建立多个模型并评估其性能，得到了测试集 r 平方值为 0.97 的结果。

Jan, 2024

关于数据集属性选择适当的重采样策略以解决类别不平衡问题

本文通过比较分析 40 个来自不同应用领域的数据集，研究了不平衡数据分类的各种因素对过采样和欠采样技术的有效性的影响，提出了基于性能度量的自动最优采样策略选择模型，可以在不同领域中选择最合适的方法。

Dec, 2021

基于遗传规划的混合集成优化算法用于不平衡数据分类

本研究提出了一个基于遗传编程的混合集成算法，以提高训练数据集（尤其是少数类）的采样效率，并确定比现有方法更好的基本分类器来组合分类器，实验结果表明，在 40％和 50％的训练集规模下，所提出的方法在少数分类预测的特定数据集上表现更佳。

Jun, 2021

基于不平衡医疗数据的机器学习性能分析来预测中风

本文探讨了卒中的潜在风险因素，比较了四种不同的方法以提高不平衡的卒中数据集的分类性能，并发现对于大规模严重失衡数据集，SMOTE 和 PCA-Kmeans 与 DNN-Focal Loss 表现最佳。

Nov, 2022

基于混合抽样方法和基于树的分类器的失衡结直肠癌数据集的存活预测

通过使用临床数据集，该研究论文着重于开发预测结直肠癌患者 1 年、3 年和 5 年生存率的算法，特别关注高度不平衡的 1 年生存率预测任务，使用多种标准平衡技术创建一种方法以提高真阳性率，从而显著提高了少数类结直肠癌患者的死亡预测能力。

Sep, 2023

回归数据集的不平衡问题

通过分析回归问题中样本分布的不平衡导致的模型倾向于忽视不常见数据且过度关注常见目标的问题，我们提出了回归问题中不平衡的首次定义，并展示其为分类中常用的不平衡度量的推广。通过这一工作，我们希望引起人们对回归不平衡问题的关注，并为未来的研究提供共同的基础。

Feb, 2024

马铃薯品种的预测分析

应用机器学习算法预测 Russet 土豆克隆体在育种试验中的适应性，并通过使用来自 Oregon 州手动收集的试验数据，分析数据集的预处理、特征工程和缺失值插补等方面，论文结果强调了机器学习在土豆品种选择过程中的潜力和在决策中应用先进技术的相关性，为精确农业做出了贡献。

Apr, 2024

应用机器学习于组学数据

在这篇论文中，我们介绍了在组学数据背景下一些机器学习技术的使用。我们具体评估了随机森林和惩罚性多项逻辑回归在胰腺癌的基因组学和免疫组学整合分析中的应用，并提出了使用关联规则来解决之前提到的模型的较低预测能力问题。最后，我们将这些方法应用于由 107 个胰腺肿瘤样本和 117,486 个生殖细胞系单核苷酸多态性 (SNPs) 构成的 TCGA 真实数据集，展示了这些方法在预测胰腺癌中的免疫浸润表现中的良好性能。

Feb, 2024