数据库内数据填充
该研究比较了七种填补技术在三个医疗数据集上的表现,结果显示 Missforest 填补法表现最好,其次是 MICE 填补法;此外,研究还表明在处理包含缺失值的数据时,首先进行填补再进行特征选择效果更好。
Mar, 2024
本文系统评估了处理缺失值的策略在预测模型中的效果,重点关注大型健康数据库,结果表明,在监督式机器学习中自然支持的缺失值预测表现优于最先进的插补方法,且计算成本更低。
Feb, 2022
本文提出了一种简单的新方法,即基于时间依赖的迭代插补(TDI),用于填补临床数据中的缺失值,该方法针对多变量和纵向数据,并基于数据的临床模式(包括缺失率和测量频率)引入了患者、变量和观察特定的动态加权策略。对 MIMIC III 和 COVID-19 住院病例进行的测试表明,TDI 可提高风险预测的准确性。
Apr, 2023
本文提出了一种统一的方法,以验证数据插补对于学习准确模型是否必要,并在插补不必要的情况下返回准确模型。通过我们的算法,可以显著减少数据插补所需的时间和工作量,并且不会带来明显的计算负担。
Feb, 2024
本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果,并证明了方法可以提高预测准确性,并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。
Oct, 2016
基于数据类型值和数据中的相关约束条件的数据插补新算法及其与其他算法的比较实验结果。该算法不仅可插补数据,还能生成人类可读的解释,描述用于每次插补的属性的重要性。
May, 2022
本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法(TabCSDI),并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比,TabCSDI 是有效的,同时也强调了分类嵌入技术的重要性。
Oct, 2022
DiffPuter 是一种迭代方法,利用期望最大化算法和扩散模型进行缺失数据填补,其通过将缺失数据视为可在模型训练过程中更新的隐藏变量,并将缺失数据填补任务作为 EM 问题来处理。DiffPuter 通过扩散模型来学习观测到的数据和当前估计的缺失数据的联合分布,然后根据给定观测数据的条件概率利用在 M-step 学习的扩散模型重新估计缺失数据,通过这个迭代过程,DiffPuter 逐步改进了完整数据分布,产生了对缺失数据越来越准确的估计,理论分析和实证评估表明 DiffPuter 的优越性,与 16 种不同的填补方法相比,在 10 个不同的数据集上,DiffPuter 的 MAE 平均改善了 8.10%,RMSE 平均改善了 5.64%。
May, 2024
本研究提出基于高斯脉冲函数的在线缺失值填补算法,适用于混合数据类型,其算法可以随着数据分布的改变进行演化,并有助于多变量缺失数据中的变点检测。实验表明该方法在合成和实际数据中的性能均表现良好。
Sep, 2020