表格数据中的缺失值插值扩散模型

Oct, 2022

表格数据中的缺失值插值扩散模型

Diffusion models for missing value imputation in tabular data

Shuhan Zheng, Nontawat Charoenphakdee

TL;DR本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法（TabCSDI），并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比，TabCSDI 是有效的，同时也强调了分类嵌入技术的重要性。

Abstract

missing value imputation in machine learning is the task of estimating the missing values in the dataset accurately using available information. In this task, several deep generative modeling methods have been pr

missing value imputation deep generative modeling diffusion models categorical variables numerical variables

发现论文，激发创造

MissDiff：在带有缺失值的表格数据上训练扩散模型

这项工作提出了一个统一且原则性的扩散式框架，用于在各种缺失机制下从数据中学习丢失值，并通过多个制表符数据集的评估证明了其优于当前最先进的扩散模型。

Jul, 2023

CSDI: 条件得分扩散模型用于概率时间序列插补

本研究提出了基于条件分数扩散模型的时间序列插值方法，相较于现有概率插值方法以及现有确定性插值方法，该方法在医疗和环境数据方面表现优异，可以减少 5-20% 的误差，并可在时间序列内插值和概率预测中应用，具有广泛的应用前景。

Jul, 2021

DiffImpute：具有去噪扩散概率模型的表格数据填充

DiffImpute 是一种新颖的去噪扩散概率模型（DDPM），它能针对缺失值进行可信的填充，通过四个针对表格特征的去噪网络和数据融合来提升观测和填充数据的一致性，实现有效的推理，显著优于其他方法。

Mar, 2024

混合类型表格数据的连续扩散

通过结合评分匹配和评分插值，我们在这篇论文中提出了一种针对混合类型表格数据的得分生成模型。模型考虑了特征异质性，并允许自适应、可学习的噪声调度以提高样本质量。实验结果表明，我们的模型在质量上始终优于最先进的基准模型，并且噪声调度设计中的异质性考虑提升了样本质量。

Dec, 2023

时序解缠对比扩散模型的时空填补

利用趋势和季节信息的条件特征和对比学习，C$^2$TSD 能更好地生成稳定和泛化性能强的模型，在三个真实数据集上的广泛实验显示其优越性能。

Feb, 2024

用扩散模型合成平衡的混合类型表格数据

介绍了一种公平的扩散模型，用于生成平衡的敏感属性数据，并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题，同时保持生成样本的质量，并且在性能和公平性方面优于现有方法用于综合表格数据。

Apr, 2024

ImDiffusion: 多元时间序列异常检测用填充扩散模型

该研究提出了一种使用时间序列插补和扩散模型相结合的新型异常检测框架 ImDiffusion，用于准确和可靠地检测多元时间序列数据中的异常数据，该框架在基准数据集上的广泛实验中表现出较高的检测准确性和时效性，是一种开创性的方法。

Jul, 2023

释放扩散模型在不完整数据填充方面的潜力

DiffPuter 是一种迭代方法，利用期望最大化算法和扩散模型进行缺失数据填补，其通过将缺失数据视为可在模型训练过程中更新的隐藏变量，并将缺失数据填补任务作为 EM 问题来处理。DiffPuter 通过扩散模型来学习观测到的数据和当前估计的缺失数据的联合分布，然后根据给定观测数据的条件概率利用在 M-step 学习的扩散模型重新估计缺失数据，通过这个迭代过程，DiffPuter 逐步改进了完整数据分布，产生了对缺失数据越来越准确的估计，理论分析和实证评估表明 DiffPuter 的优越性，与 16 种不同的填补方法相比，在 10 个不同的数据集上，DiffPuter 的 MAE 平均改善了 8.10％，RMSE 平均改善了 5.64％。

May, 2024

时间序列应用的扩散模型：一项调查

本篇综述着重探讨了基于扩散模型的时间序列预测、插补和生成方法，并比较了不同应用的方法及其联系，最后总结了现有的限制与未来的发展方向。

May, 2023

深度集合遇见分位回归：面向时间序列的不确定性感知填充

我们提出了一种非生成时间序列插补方法，该方法通过深度集成与分位数回归相结合，在计算上更高效，并能够准确插补时间序列数据并估计不确定性。

Dec, 2023