Jun, 2023

基于机器学习的分类数据缺失值填充

TL;DR本研究探讨了使用机器学习算法来预测和填补分类数据集中的缺失值,着重于采用纠错输出编码 (ECOC) 框架的集成模型,包括基于 SVM 和 KNN 的集成模型,以及结合了 SVM、KNN 和 MLP 模型的集成分类器。我们将这些算法应用于三个数据集:CPU 数据集、甲状腺机能减退数据集和乳腺癌数据集。我们的实验表明,机器学习算法能够在预测和填补缺失值方面取得良好的性能,但具体的数据集和缺失值模式可能会有所不同。基于 ECOC 框架的集成模型在提高预测的准确性和鲁棒性方面特别有效,但使用深度学习进行缺失值填补也存在挑战和局限性,包括需要大量标记数据和可能出现过拟合的问题。需要进一步研究深度学习算法在缺失值填补方面的有效性和效率,并制定应对可能出现的挑战和限制的策略。