处理特殊缺失机制下的缺失数据综述

Apr, 2024

处理特殊缺失机制下的缺失数据综述

Review for Handling Missing Data with special missing mechanism

Youran Zhou, Sunil Aryal, Mohamed Reda Bouadjenek

TL;DR在数据科学中，缺失数据是一个重要的挑战，它对决策过程和结果产生影响。本文回顾了现有文献对处理缺失数据的方法进行了比较和对比，揭示了现有文献中的研究空白，并提出了未来研究的潜在方向。这个综述将帮助数据分析人员和研究人员在实际问题中采用和推广处理缺失数据的良好实践。

Abstract

missing data poses a significant challenge in data science, affecting decision-making processes and outcomes. Understanding what missing data

missing data data science imputation missing mechanisms research gap

发现论文，激发创造

缺失数据情况下的因果发现

本文提出了 MVPC 算法，可用于发现具有不同缺失机制的观察数据中的基础因果结构，其缺失机制由失踪图表示，并提出了附加的纠正操作，以推导完整数据中的条件独立性 / 依赖关系。经实验证明，所提出的算法在 MAR 或 MNAR 数据下也能给出正确的结果，并且在神经病理性疼痛诊断记录和其他两个真实世界应用中表现优异。

Jul, 2018

缺失非随机数据的深度生成填补模型

数据分析中，常常遇到缺失非随机（MNAR）的问题，本文从新的视角重新考虑 MNAR 问题，提出了一种基于生成模型的联合概率分解方法，并成功应用于数据的插补和遗漏掩码的重建。实验证明，我们的方法在 MNAR 问题上超过了现有的基线模型，并且在均方根误差上取得了显著的提升（平均提高了 9.9% 到 18.8%），同时也得到了更好的掩码重建准确性，使得插补的过程更加可靠。

Aug, 2023

处理缺失数据的图模型

本文从透明度、可估计性和可测试性的三个方面，评估了传统框架的限制，并展示了如何通过基于图形模型的方法来克服这些限制并在包括 MNAR 在内的广泛缺失数据问题中提供有意义的性能保证。同时，提出了在 MAR 和 MNAR 类别中对缺失数据模型进行可测试的推论。

Jan, 2018

缺失非随机数据的填补和低秩估计

本文介绍了一种模型和代理的基于矩阵补全的方法来处理丢失而非随机的数据，该方法在处理不同类型的丢失机制时具有稳健性和计算效率，并通过一个实际案例从一个受伤人员数据库中预测是否给患有创伤性脑损伤的患者输注氨甲环酸以控制过度出血的情况。

Dec, 2018

什么是 “随机缺失”？

本研究提供了 “随机缺失” 和 “完全随机缺失” 的规范精确定义，以明确缺失机制被忽略的条件，从而在各种推理范式下获得有效推论。

Jun, 2013

公平性与缺失值

本文旨在研究如何在机器学习中处理缺失数据，以提高公平性决策的准确性，发现缺失数据与数据偏差现象紧密相关，而此前的研究却没有充分考虑缺失数据问题。

May, 2019

缺失数据的块条件随机模型

本文介绍了几种缺失数据处理方法，其中介绍了 EM 算法和基于联合概率分布的模型，提出了 block-sequential 模型，其中的 block-conditional MAR 模型能通过舍弃部分数据实现一致估计，并提供了多项式分布和指数族分布下的推导。

Apr, 2011

协同过滤和缺失的随机假设

本文介绍了一个用户研究的结果，即随机选取评分在更精确地评估评价预测时比用户选择评分更符合随机假设，且将缺失数据机制作为一个显式模型可以提高评分预测性能。

Jun, 2012

解决数据集中缺失问题的方法论研究及其在人口健康数据集中的应用

本研究提出了一种处理健康数据集中缺失数据的方法，通过结合生成合成数据集、缺失数据插补和深度学习方法来解决缺失数据问题，并使用高斯混合模型、聚类、分类和直接插补分析等综合性能分析框架评估，得出当采用 DAE 方法进行插补时，模型的对数损失最低且性能表现较好，该方法对于处理其他领域的缺失数据同样适用。

Nov, 2022

非可忽略缺失数据的识别与估计：一种数据融合方法

我们考虑的是在数据不随机缺失（MNAR）的情况下识别和估计感兴趣的参数。本文提出了一种受数据融合启发的方法，其中 MNAR 数据集的信息通过与随机缺失（MAR）的辅助数据集的信息来增强。我们展示了在两组互补假设下，即使单独给定任一数据集都无法识别感兴趣的参数，但在汇总数据给定情况下可以识别。我们推导了一种逆概率加权（IPW）估计器用于识别的参数，并通过模拟研究评估了我们的估计策略的性能。

Nov, 2023