什么是 “随机缺失”?
在数据科学中,缺失数据是一个重要的挑战,它对决策过程和结果产生影响。本文回顾了现有文献对处理缺失数据的方法进行了比较和对比,揭示了现有文献中的研究空白,并提出了未来研究的潜在方向。这个综述将帮助数据分析人员和研究人员在实际问题中采用和推广处理缺失数据的良好实践。
Apr, 2024
本文详细分析了与 missing at random 假设和 coarsened at random 假设相关的几个问题并提供了一些评估数据收集或观察过程中 ccar 假设是否合理的标准。同时研究表明 ccar 条件是最合理的假设,因为它代表了满足一种自然鲁棒性属性的数据粗化过程。
Sep, 2011
本文提出了 MVPC 算法,可用于发现具有不同缺失机制的观察数据中的基础因果结构,其缺失机制由失踪图表示,并提出了附加的纠正操作,以推导完整数据中的条件独立性 / 依赖关系。经实验证明,所提出的算法在 MAR 或 MNAR 数据下也能给出正确的结果,并且在神经病理性疼痛诊断记录和其他两个真实世界应用中表现优异。
Jul, 2018
本文介绍了一种模型和代理的基于矩阵补全的方法来处理丢失而非随机的数据,该方法在处理不同类型的丢失机制时具有稳健性和计算效率,并通过一个实际案例从一个受伤人员数据库中预测是否给患有创伤性脑损伤的患者输注氨甲环酸以控制过度出血的情况。
Dec, 2018
本文研究了具有缺失非随机性的矩阵补全问题,提出了一种新的缺失概率估计方法,通过观察缺失数据的核范数结构,将缺失数据的概率转化为矩阵补全问题。该方法能够显著降低标准矩阵补全算法在缺失数据情况下预测结果的偏差,实验表明其效果好于传统方法。
Oct, 2019
本文提供了有关缺失数据如何影响各个领域(如医疗保健,经济学和社会科学)中所进行的分析的方法,同时介绍了一种通过概率分布来因式分解目标分布和其缺失过程的无偏推断方法,以及一些特定图形条件和证明的完整性。同时,还扩展了这些图形条件和完整性证明的设置,以解决由缺失数据和未测量混淆引起的问题。
Apr, 2020
本文介绍了几种缺失数据处理方法,其中介绍了 EM 算法和基于联合概率分布的模型,提出了 block-sequential 模型,其中的 block-conditional MAR 模型能通过舍弃部分数据实现一致估计,并提供了多项式分布和指数族分布下的推导。
Apr, 2011