医疗数据缺失值填补技术的性能评估

Mar, 2024

医疗数据缺失值填补技术的性能评估

On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets

Luke Oluwaseye Joel, Wesley Doorsamy, Babu Sena Paul

TL;DR该研究比较了七种填补技术在三个医疗数据集上的表现，结果显示 Missforest 填补法表现最好，其次是 MICE 填补法；此外，研究还表明在处理包含缺失值的数据时，首先进行填补再进行特征选择效果更好。

Abstract

missing values or data is one popular characteristic of real-world datasets, especially healthcare data. This could be frustrating when using machine learning algorithms on such datasets, simply because most machine learning models perform poorly in the presence of →

missing values imputation techniques healthcare datasets machine learning algorithms feature selection

发现论文，激发创造

基于健康数据库的预测模型缺失值处理方法的基准测试

本文系统评估了处理缺失值的策略在预测模型中的效果，重点关注大型健康数据库，结果表明，在监督式机器学习中自然支持的缺失值预测表现优于最先进的插补方法，且计算成本更低。

Feb, 2022

MissForest - 混合类型数据的非参数缺失值填补

提出了一种非参数方法，使用随机森林（random forest）基于迭代插补（iterative imputation）处理混合类型数据中的缺失值，相较于其他插值方法，特别是在疑似存在复杂交互作用和非线性关系的数据集中，该方法表现出较高的性能，且具有良好的计算效率和处理高维度数据的能力。

May, 2011

数据库内数据填充

通过在数据库系统中使用 MICE 方法，本研究实现了高效、高质量和可扩展的数据填充，充分利用计算共享和环形抽象技术以加快模型训练并在 PostgreSQL 和 DuckDB 中取得了比其他 MICE 实现和基于模型填充技术快两个数量级的计算时间，同时保持了高水平的填充质量。

Jan, 2024

比较多重插补技术的方法：以美国国家 COVID 队列合作为例的案例研究

本研究提出了一种新的框架，以数字方式评估在统计分析背景下处理缺失数据的策略，特别关注多重插补技术，并在 National COVID Cohort Collaborative 提供的大型 2 型糖尿病患者队列上进行了实证研究，结果显示多重插补技术可以有效地处理缺失数据。

Jun, 2022

基于特征重要性的迭代缺失值填补

通过考虑特征重要性，我们设计了一种基于矩阵完成和特征重要性学习的填补算法，实验证明该方法在处理缺失值方面优于现有的五种填补算法。

Nov, 2023

监督学习的缺失数据插补

本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果，并证明了方法可以提高预测准确性，并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。

Oct, 2016

医学应用中基于多方计算的隐私保护数据填充

本研究利用安全多方计算提出了隐私保存插补方法，以在医疗和保健领域对敏感数据进行保护，并在糖尿病数据集上验证了其正确性和可伸缩性。

May, 2024

随机森林缺失数据算法

使用不同缺失数据机制的大量数据集，评估了各种 RF 算法的表现，发现 RF 插补通常表现良好，表现随相关性的增加而改善，在中度到高级缺失的情况下表现良好甚至在非随机缺失数据的情况下也有良好表现。

Jan, 2017

基于机器学习的分类数据缺失值填充

本研究探讨了使用机器学习算法来预测和填补分类数据集中的缺失值，着重于采用纠错输出编码 (ECOC) 框架的集成模型，包括基于 SVM 和 KNN 的集成模型，以及结合了 SVM、KNN 和 MLP 模型的集成分类器。我们将这些算法应用于三个数据集：CPU 数据集、甲状腺机能减退数据集和乳腺癌数据集。我们的实验表明，机器学习算法能够在预测和填补缺失值方面取得良好的性能，但具体的数据集和缺失值模式可能会有所不同。基于 ECOC 框架的集成模型在提高预测的准确性和鲁棒性方面特别有效，但使用深度学习进行缺失值填补也存在挑战和局限性，包括需要大量标记数据和可能出现过拟合的问题。需要进一步研究深度学习算法在缺失值填补方面的有效性和效率，并制定应对可能出现的挑战和限制的策略。

Jun, 2023

缺失数据填补中的公平性

本研究探讨了缺失数据补全方法的公平性，发现缺失值补全在敏感群体中存在公平性问题，因此有必要对相关因素进行仔细研究，以减少与缺失数据补全相关的不公平性。

Oct, 2021