处理缺失数据的图模型

Jan, 2018

Graphical Models for Processing Missing Data

Karthika Mohan, Judea Pearl

TL;DR本文从透明度、可估计性和可测试性的三个方面，评估了传统框架的限制，并展示了如何通过基于图形模型的方法来克服这些限制并在包括 MNAR 在内的广泛缺失数据问题中提供有意义的性能保证。同时，提出了在 MAR 和 MNAR 类别中对缺失数据模型进行可测试的推论。

Abstract

This paper reviews recent advances in missing data research using graphical models to represent multivariate dependencies. We first examine the limitations of traditional frameworks from three different perspectives: \textit{transparency, estimability and →

missing data graphical models mnar estimation testability

发现论文，激发创造

缺失数据情况下的因果发现

本文提出了 MVPC 算法，可用于发现具有不同缺失机制的观察数据中的基础因果结构，其缺失机制由失踪图表示，并提出了附加的纠正操作，以推导完整数据中的条件独立性 / 依赖关系。经实验证明，所提出的算法在 MAR 或 MNAR 数据下也能给出正确的结果，并且在神经病理性疼痛诊断记录和其他两个真实世界应用中表现优异。

Jul, 2018

缺失数据的图模型中完全法律鉴定结果

本文提供了有关缺失数据如何影响各个领域（如医疗保健，经济学和社会科学）中所进行的分析的方法，同时介绍了一种通过概率分布来因式分解目标分布和其缺失过程的无偏推断方法，以及一些特定图形条件和证明的完整性。同时，还扩展了这些图形条件和完整性证明的设置，以解决由缺失数据和未测量混淆引起的问题。

Apr, 2020

缺失非随机数据的深度生成填补模型

数据分析中，常常遇到缺失非随机（MNAR）的问题，本文从新的视角重新考虑 MNAR 问题，提出了一种基于生成模型的联合概率分解方法，并成功应用于数据的插补和遗漏掩码的重建。实验证明，我们的方法在 MNAR 问题上超过了现有的基线模型，并且在均方根误差上取得了显著的提升（平均提高了 9.9% 到 18.8%），同时也得到了更好的掩码重建准确性，使得插补的过程更加可靠。

Aug, 2023

处理特殊缺失机制下的缺失数据综述

在数据科学中，缺失数据是一个重要的挑战，它对决策过程和结果产生影响。本文回顾了现有文献对处理缺失数据的方法进行了比较和对比，揭示了现有文献中的研究空白，并提出了未来研究的潜在方向。这个综述将帮助数据分析人员和研究人员在实际问题中采用和推广处理缺失数据的良好实践。

Apr, 2024

缺失非随机数据的填补和低秩估计

本文介绍了一种模型和代理的基于矩阵补全的方法来处理丢失而非随机的数据，该方法在处理不同类型的丢失机制时具有稳健性和计算效率，并通过一个实际案例从一个受伤人员数据库中预测是否给患有创伤性脑损伤的患者输注氨甲环酸以控制过度出血的情况。

Dec, 2018

算法公平中建模数据缺失的重要性：因果视角

本文使用因果图的方法，研究了机器学习中缺失数据的情况对公平性算法的影响，提出了一个算法可在多阶段决策中实现分散决策的同时保持性能相似。

Dec, 2020

使用图形模型进行学习的操作

本文从图形模型的角度综述了多学科的经验性统计学习，包括图形模型的常见例子，如贝叶斯网络、表示马尔科夫链的有向图和表示马尔科夫场的无向网络，并使用试板符号扩展来对数据分析和实证学习进行建模，提供了简化和操作问题的图形操作，包括分解、演变和来自指数族的概率模型的操作。文中还综述了两种标准的算法模式：Gibbs 采样和期望最大化算法，并使用这些操作和模式综述了一些流行的算法，包括线性回归、前馈网络的技术以及从数据学习高斯和离散贝叶斯网络。最后，本文概述了图形模型提供的框架来理解和开发复杂学习算法的一些含义。

Dec, 1994

神经图模型

本研究介绍了神经图模型，该模型采用神经网络作为多任务学习框架，通过表示节点之间的依赖结构及其复杂的函数表示来捕获特征之间的完整的复杂依赖关系，并提供 NGMs 的有效学习、推理和采样算法。NGMs 可以适应包括有向、无向和混合边缘图在内的通用图结构，可以处理混合输入数据类型。经验研究表明，NGMs 能够代表高斯图模型，并从由 CDC 提供的真实世界婴儿死亡数据中提取见解。

Oct, 2022

多中心临床研究中的缺失数据因果发现

本研究使用多中心子宫内膜癌的数据分析不同缺失机制对因果图的影响，通过扩展最先进的因果发现算法来利用专家知识，验证得到的图形的良好拟合度和一致性。

May, 2023

缺失数据的块条件随机模型

本文介绍了几种缺失数据处理方法，其中介绍了 EM 算法和基于联合概率分布的模型，提出了 block-sequential 模型，其中的 block-conditional MAR 模型能通过舍弃部分数据实现一致估计，并提供了多项式分布和指数族分布下的推导。

Apr, 2011