Feb, 2024

不平衡遗传数据的改进分类和回归性能的数据预处理方法、特征选择技术和机器学习模型的比较分析

TL;DR通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查,发现在回归任务中,异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战;而分类任务中,类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例,但其发现可推广到任何类似数据集。