处理特殊缺失机制下的缺失数据综述
本文提出了 MVPC 算法,可用于发现具有不同缺失机制的观察数据中的基础因果结构,其缺失机制由失踪图表示,并提出了附加的纠正操作,以推导完整数据中的条件独立性 / 依赖关系。经实验证明,所提出的算法在 MAR 或 MNAR 数据下也能给出正确的结果,并且在神经病理性疼痛诊断记录和其他两个真实世界应用中表现优异。
Jul, 2018
数据分析中,常常遇到缺失非随机(MNAR)的问题,本文从新的视角重新考虑 MNAR 问题,提出了一种基于生成模型的联合概率分解方法,并成功应用于数据的插补和遗漏掩码的重建。实验证明,我们的方法在 MNAR 问题上超过了现有的基线模型,并且在均方根误差上取得了显著的提升(平均提高了 9.9% 到 18.8%),同时也得到了更好的掩码重建准确性,使得插补的过程更加可靠。
Aug, 2023
本文从透明度、可估计性和可测试性的三个方面,评估了传统框架的限制,并展示了如何通过基于图形模型的方法来克服这些限制并在包括 MNAR 在内的广泛缺失数据问题中提供有意义的性能保证。同时,提出了在 MAR 和 MNAR 类别中对缺失数据模型进行可测试的推论。
Jan, 2018
本文介绍了一种模型和代理的基于矩阵补全的方法来处理丢失而非随机的数据,该方法在处理不同类型的丢失机制时具有稳健性和计算效率,并通过一个实际案例从一个受伤人员数据库中预测是否给患有创伤性脑损伤的患者输注氨甲环酸以控制过度出血的情况。
Dec, 2018
本文介绍了几种缺失数据处理方法,其中介绍了 EM 算法和基于联合概率分布的模型,提出了 block-sequential 模型,其中的 block-conditional MAR 模型能通过舍弃部分数据实现一致估计,并提供了多项式分布和指数族分布下的推导。
Apr, 2011
本研究提出了一种处理健康数据集中缺失数据的方法,通过结合生成合成数据集、缺失数据插补和深度学习方法来解决缺失数据问题,并使用高斯混合模型、聚类、分类和直接插补分析等综合性能分析框架评估,得出当采用 DAE 方法进行插补时,模型的对数损失最低且性能表现较好,该方法对于处理其他领域的缺失数据同样适用。
Nov, 2022
我们考虑的是在数据不随机缺失(MNAR)的情况下识别和估计感兴趣的参数。本文提出了一种受数据融合启发的方法,其中 MNAR 数据集的信息通过与随机缺失(MAR)的辅助数据集的信息来增强。我们展示了在两组互补假设下,即使单独给定任一数据集都无法识别感兴趣的参数,但在汇总数据给定情况下可以识别。我们推导了一种逆概率加权(IPW)估计器用于识别的参数,并通过模拟研究评估了我们的估计策略的性能。
Nov, 2023