MIDA: 使用去噪自编码器进行多重插补

KDDMay, 2017

MIDA: 使用去噪自编码器进行多重插补

MIDA: Multiple Imputation using Denoising Autoencoders

Lovedeep Gondara, Ke Wang

TL;DR本文提出一种基于过完备去噪深度自编码器的多重插补模型，可以处理不同的数据类型、缺失模式、缺失比例和分布，评估表明我们的模型在多种条件下显著优于现有的最先进方法，同时改善了末端的线性分析。

Abstract

missing data is a significant problem impacting all domains. State-of-the-art framework for minimizing missing data bias is multiple imputation

missing data multiple imputation deep denoising autoencoders real life datasets end of the line analytics

发现论文，激发创造

对抗训练图形卷积网络实现缺失数据插值

本论文提出了一种更通用的缺失数据填充 (MDI) 框架，使用图神经网络 (GNNs) 建立自编码器与边表征向量，通过多个损失函数提升性能。本方法在大规模实验中表现优于现有 MDI 方法，在大量缺失值时尤为明显。

May, 2019

MIWAE: 不完整数据的深度生成建模和插值

研究在深度潜变量模型（DLVM）中如何处理缺失数据的问题，提出了一种称为 MIWAE 的基于重要性加权自编码器（IWAE）的方法，可以最大化观察数据的对数似然的潜在下界，通过该方法实现单一和多重插值。在这些不完整的 MNIST 数字上训练的深度卷积 DLVM，通过多重插值，其测试性能与完整数据集训练的网络相似，并且在各种连续和二元数据集上，MIWAE 提供精确的单一插值，并且在最先进方法中非常有竞争力。

Dec, 2018

高维数据中自复制随机森林链的缺失值插补

本文提出了一种基于多标签分类和随机森林的缺失值填充算法，适用于高维低样本数据，尤其适用于单核苷酸多态性数据集，实验证明其优于标准算法。

Jan, 2023

打开黑匣子：利用建筑物理学洞察实现内在可解释的能源数据填补模型

建筑能源建模中经常观察到的缺失数据需要用先进的数据驱动解决方案来反映这些异常的非线性行为。本文提出了在商业建筑中使用基于物理信息的去噪自编码器 (PI-DAE) 进行缺失数据填补的方法，并通过引入物理知识到网络中实现了更可解释的预测，从而促进了该方法的实际应用。

Nov, 2023

DiffImpute：具有去噪扩散概率模型的表格数据填充

DiffImpute 是一种新颖的去噪扩散概率模型（DDPM），它能针对缺失值进行可信的填充，通过四个针对表格特征的去噪网络和数据融合来提升观测和填充数据的一致性，实现有效的推理，显著优于其他方法。

Mar, 2024

MADS：用于时间序列插值的调制自编码 SIREN

本研究基于隐式神经表示提出了一种新型自编码框架 MADS，用于时间序列插值，该模型在人类活动和空气质量数据集上表现优异，优于现有的时间序列插补算法，平均排名仅次于理论最优模型。

Jul, 2023

解决数据集中缺失问题的方法论研究及其在人口健康数据集中的应用

本研究提出了一种处理健康数据集中缺失数据的方法，通过结合生成合成数据集、缺失数据插补和深度学习方法来解决缺失数据问题，并使用高斯混合模型、聚类、分类和直接插补分析等综合性能分析框架评估，得出当采用 DAE 方法进行插补时，模型的对数损失最低且性能表现较好，该方法对于处理其他领域的缺失数据同样适用。

Nov, 2022

缺失数据下的 VAEs

开发了一种新颖的潜在变量模型，通过生成缺失数据的损坏过程对处理缺失数据集进行了模糊处理，并推导出相应的易于实现、可处理可随机缺失和不随机缺失数据、适用于高维输入、VAE 编码器和解码器原则性访问指标变量以确定数据元素是否缺失的可跟踪证据下限 (ELBO)。在 MNIST 和 SVHN 数据集上，相比现有方法，证明了观测数据的边际对数似然和更好的缺失数据插值提高。

Jun, 2020

使用混合变分族集合提升不完整数据的变分自动编码器估计

研究了在数据不完整的情况下对变分自动编码器的估计任务，发现缺失数据增加了模型后验分布对潜变量的复杂性，从而影响了模型的拟合。通过引入两种策略（有限变分混合和基于插补的变分混合分布），解决了增加的后验复杂性问题。通过全面评估这些方法，结果表明变分混合对不完整数据的变分自动编码器估计准确性具有提升效果。

Mar, 2024

EGG-GAE: 可扩展的图神经网络用于表格数据填充

本文提出了一种基于 EdGe（隐式图形表示）图自编码器的缺失数据插补方法，其可处理更大的数据集且能够自动推断每层最佳的联通性，同时在基准测试和基线系统中均获得了重大的改进。

Oct, 2022