本文提出了一种通过基于主成分分析的方法来确定是否可以准确地填充缺失值的特征填写能力,该方法可以在极端缺失和缺乏基础真相的情况下建立主成分载荷和特征填补能力之间的强线性关系。
Jul, 2020
本文系统评估了处理缺失值的策略在预测模型中的效果,重点关注大型健康数据库,结果表明,在监督式机器学习中自然支持的缺失值预测表现优于最先进的插补方法,且计算成本更低。
Feb, 2022
基于数据类型值和数据中的相关约束条件的数据插补新算法及其与其他算法的比较实验结果。该算法不仅可插补数据,还能生成人类可读的解释,描述用于每次插补的属性的重要性。
May, 2022
本研究提出了一种处理健康数据集中缺失数据的方法,通过结合生成合成数据集、缺失数据插补和深度学习方法来解决缺失数据问题,并使用高斯混合模型、聚类、分类和直接插补分析等综合性能分析框架评估,得出当采用DAE方法进行插补时,模型的对数损失最低且性能表现较好,该方法对于处理其他领域的缺失数据同样适用。
Nov, 2022
本文介绍了一种用于处理缺失数据的方法——Missing Indicator Method,该方法通过在特征矩阵中添加缺失模式指示变量来搭配数据的填充,能够提高模型性能,同时还针对高维数据可能出现的模型过拟合问题,提出了一种 SMIM 扩展方法,并在实际的临床数据任务中表明了方法的实用性。
本文以五个时间序列健康数据集和六个实验条件为基准,展开数据中心的方法来评估最先进的深度插补方法,发现没有单一的插补方法在所有五个数据集上表现最佳,插补表现取决于数据类型,变量统计,缺失率和类型,这表明在选择多变量时间序列数据的缺失值插补方法时要考虑数据的特定情况。
Feb, 2023
本研究探讨了使用机器学习算法来预测和填补分类数据集中的缺失值, 着重于采用纠错输出编码(ECOC)框架的集成模型,包括基于SVM和KNN的集成模型,以及结合了SVM、KNN和MLP模型的集成分类器。我们将这些算法应用于三个数据集:CPU数据集、甲状腺机能减退数据集和乳腺癌数据集。我们的实验表明,机器学习算法能够在预测和填补缺失值方面取得良好的性能,但具体的数据集和缺失值模式可能会有所不同。基于ECOC框架的集成模型在提高预测的准确性和鲁棒性方面特别有效,但使用深度学习进行缺失值填补也存在挑战和局限性,包括需要大量标记数据和可能出现过拟合的问题。需要进一步研究深度学习算法在缺失值填补方面的有效性和效率,并制定应对可能出现的挑战和限制的策略。
Jun, 2023
通过考虑特征重要性,我们设计了一种基于矩阵完成和特征重要性学习的填补算法,实验证明该方法在处理缺失值方面优于现有的五种填补算法。
Nov, 2023
该研究比较了七种填补技术在三个医疗数据集上的表现,结果显示Missforest填补法表现最好,其次是MICE填补法;此外,研究还表明在处理包含缺失值的数据时,首先进行填补再进行特征选择效果更好。
Mar, 2024
本研究提出了Shades-of-NULL,一个用于负责任缺失值填补的基准,解决了现有方法在不同缺失机制下评估不足的问题。研究通过建模真实的缺失场景,提供了一种全面的评估方法,结合预测性能、公平性和稳定性来评价填补技术。研究结果显示,不同填补方法在复杂缺失场景下表现出有趣的性能模式,促进了相关领域对缺失值填补方法的深入研究。
Sep, 2024