本论文提出了一种更通用的缺失数据填充 (MDI) 框架,使用图神经网络 (GNNs) 建立自编码器与边表征向量,通过多个损失函数提升性能。本方法在大规模实验中表现优于现有 MDI 方法,在大量缺失值时尤为明显。
May, 2019
研究在深度潜变量模型(DLVM)中如何处理缺失数据的问题,提出了一种称为 MIWAE 的基于重要性加权自编码器(IWAE)的方法,可以最大化观察数据的对数似然的潜在下界,通过该方法实现单一和多重插值。在这些不完整的 MNIST 数字上训练的深度卷积 DLVM,通过多重插值,其测试性能与完整数据集训练的网络相似,并且在各种连续和二元数据集上,MIWAE 提供精确的单一插值,并且在最先进方法中非常有竞争力。
Dec, 2018
本文提出了一种基于多标签分类和随机森林的缺失值填充算法,适用于高维低样本数据,尤其适用于单核苷酸多态性数据集,实验证明其优于标准算法。
Jan, 2023
建筑能源建模中经常观察到的缺失数据需要用先进的数据驱动解决方案来反映这些异常的非线性行为。本文提出了在商业建筑中使用基于物理信息的去噪自编码器 (PI-DAE) 进行缺失数据填补的方法,并通过引入物理知识到网络中实现了更可解释的预测,从而促进了该方法的实际应用。
Nov, 2023
DiffImpute 是一种新颖的去噪扩散概率模型(DDPM),它能针对缺失值进行可信的填充,通过四个针对表格特征的去噪网络和数据融合来提升观测和填充数据的一致性,实现有效的推理,显著优于其他方法。
Mar, 2024
本研究基于隐式神经表示提出了一种新型自编码框架 MADS,用于时间序列插值,该模型在人类活动和空气质量数据集上表现优异,优于现有的时间序列插补算法,平均排名仅次于理论最优模型。
Jul, 2023
本研究提出了一种处理健康数据集中缺失数据的方法,通过结合生成合成数据集、缺失数据插补和深度学习方法来解决缺失数据问题,并使用高斯混合模型、聚类、分类和直接插补分析等综合性能分析框架评估,得出当采用 DAE 方法进行插补时,模型的对数损失最低且性能表现较好,该方法对于处理其他领域的缺失数据同样适用。
Nov, 2022
开发了一种新颖的潜在变量模型,通过生成缺失数据的损坏过程对处理缺失数据集进行了模糊处理,并推导出相应的易于实现、可处理可随机缺失和不随机缺失数据、适用于高维输入、VAE 编码器和解码器原则性访问指标变量以确定数据元素是否缺失的可跟踪证据下限 (ELBO)。在 MNIST 和 SVHN 数据集上,相比现有方法,证明了观测数据的边际对数似然和更好的缺失数据插值提高。
Jun, 2020
研究了在数据不完整的情况下对变分自动编码器的估计任务,发现缺失数据增加了模型后验分布对潜变量的复杂性,从而影响了模型的拟合。通过引入两种策略(有限变分混合和基于插补的变分混合分布),解决了增加的后验复杂性问题。通过全面评估这些方法,结果表明变分混合对不完整数据的变分自动编码器估计准确性具有提升效果。
本文提出了一种基于 EdGe(隐式图形表示)图自编码器的缺失数据插补方法,其可处理更大的数据集且能够自动推断每层最佳的联通性,同时在基准测试和基线系统中均获得了重大的改进。
Oct, 2022