医疗数据缺失值填补技术的性能评估
本文系统评估了处理缺失值的策略在预测模型中的效果,重点关注大型健康数据库,结果表明,在监督式机器学习中自然支持的缺失值预测表现优于最先进的插补方法,且计算成本更低。
Feb, 2022
提出了一种非参数方法,使用随机森林(random forest)基于迭代插补(iterative imputation)处理混合类型数据中的缺失值,相较于其他插值方法,特别是在疑似存在复杂交互作用和非线性关系的数据集中,该方法表现出较高的性能,且具有良好的计算效率和处理高维度数据的能力。
May, 2011
通过在数据库系统中使用 MICE 方法,本研究实现了高效、高质量和可扩展的数据填充,充分利用计算共享和环形抽象技术以加快模型训练并在 PostgreSQL 和 DuckDB 中取得了比其他 MICE 实现和基于模型填充技术快两个数量级的计算时间,同时保持了高水平的填充质量。
Jan, 2024
本研究提出了一种新的框架,以数字方式评估在统计分析背景下处理缺失数据的策略,特别关注多重插补技术,并在 National COVID Cohort Collaborative 提供的大型 2 型糖尿病患者队列上进行了实证研究,结果显示多重插补技术可以有效地处理缺失数据。
Jun, 2022
本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果,并证明了方法可以提高预测准确性,并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。
Oct, 2016
使用不同缺失数据机制的大量数据集,评估了各种 RF 算法的表现,发现 RF 插补通常表现良好,表现随相关性的增加而改善,在中度到高级缺失的情况下表现良好甚至在非随机缺失数据的情况下也有良好表现。
Jan, 2017
本研究探讨了使用机器学习算法来预测和填补分类数据集中的缺失值,着重于采用纠错输出编码 (ECOC) 框架的集成模型,包括基于 SVM 和 KNN 的集成模型,以及结合了 SVM、KNN 和 MLP 模型的集成分类器。我们将这些算法应用于三个数据集:CPU 数据集、甲状腺机能减退数据集和乳腺癌数据集。我们的实验表明,机器学习算法能够在预测和填补缺失值方面取得良好的性能,但具体的数据集和缺失值模式可能会有所不同。基于 ECOC 框架的集成模型在提高预测的准确性和鲁棒性方面特别有效,但使用深度学习进行缺失值填补也存在挑战和局限性,包括需要大量标记数据和可能出现过拟合的问题。需要进一步研究深度学习算法在缺失值填补方面的有效性和效率,并制定应对可能出现的挑战和限制的策略。
Jun, 2023