MissDiff：在带有缺失值的表格数据上训练扩散模型

ICMLJul, 2023

MissDiff：在带有缺失值的表格数据上训练扩散模型

MissDiff: Training Diffusion Models on Tabular Data with Missing Values

Yidong Ouyang, Liyan Xie, Chongxuan Li, Guang Cheng

TL;DR这项工作提出了一个统一且原则性的扩散式框架，用于在各种缺失机制下从数据中学习丢失值，并通过多个制表符数据集的评估证明了其优于当前最先进的扩散模型。

Abstract

The diffusion model has shown remarkable performance in modeling data distributions and synthesizing data. However, the vanilla diffusion model requires complete or fully observed data for training. Incomplete da

diffusion model missing data healthcare finance tabular datasets

发现论文，激发创造

表格数据中的缺失值插值扩散模型

本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法（TabCSDI），并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比，TabCSDI 是有效的，同时也强调了分类嵌入技术的重要性。

Oct, 2022

表格数据填补和合成数据生成的扩散模型

我们提出了一种扩展的扩散模型，用于表格数据的数据填充和数据生成任务，通过引入条件注意机制、编码器 - 解码器 Transformer 和动态遮蔽来提高模型的性能。

Jul, 2024

DiffImpute：具有去噪扩散概率模型的表格数据填充

DiffImpute 是一种新颖的去噪扩散概率模型（DDPM），它能针对缺失值进行可信的填充，通过四个针对表格特征的去噪网络和数据融合来提升观测和填充数据的一致性，实现有效的推理，显著优于其他方法。

Mar, 2024

用扩散模型合成平衡的混合类型表格数据

介绍了一种公平的扩散模型，用于生成平衡的敏感属性数据，并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题，同时保持生成样本的质量，并且在性能和公平性方面优于现有方法用于综合表格数据。

Apr, 2024

释放扩散模型在不完整数据填充方面的潜力

DiffPuter 是一种迭代方法，利用期望最大化算法和扩散模型进行缺失数据填补，其通过将缺失数据视为可在模型训练过程中更新的隐藏变量，并将缺失数据填补任务作为 EM 问题来处理。DiffPuter 通过扩散模型来学习观测到的数据和当前估计的缺失数据的联合分布，然后根据给定观测数据的条件概率利用在 M-step 学习的扩散模型重新估计缺失数据，通过这个迭代过程，DiffPuter 逐步改进了完整数据分布，产生了对缺失数据越来越准确的估计，理论分析和实证评估表明 DiffPuter 的优越性，与 16 种不同的填补方法相比，在 10 个不同的数据集上，DiffPuter 的 MAE 平均改善了 8.10％，RMSE 平均改善了 5.64％。

May, 2024

混合类型表格数据的连续扩散

通过结合评分匹配和评分插值，我们在这篇论文中提出了一种针对混合类型表格数据的得分生成模型。模型考虑了特征异质性，并允许自适应、可学习的噪声调度以提高样本质量。实验结果表明，我们的模型在质量上始终优于最先进的基准模型，并且噪声调度设计中的异质性考虑提升了样本质量。

Dec, 2023

FinDiff: 金融表格数据生成的扩散模型

通过使用生成模型特别是扩散模型，本研究引入了‘FinDiff'，这是一种用于生成逼真金融表格数据的扩散模型，可用于各种监管下游任务，如经济情景建模、压力测试和欺诈检测，同时保证高保真度、隐私性和实用性。

Sep, 2023

利用扩散和基于流的梯度增强树生成和填补表格数据

该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型（连续和分类）表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作，我们使用了 XGBoost，一种流行的梯度提升树（GBT）方法。我们的方法在多个数据集上经验性地表明：当训练数据集是干净的或受到缺失数据影响时，它能够生成高度逼真的合成数据，并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法，并且可以使用 CPU 并行训练，无需 GPU。为了方便使用，我们通过 PyPI 发布了我们的 Python 库和 CRAN 上的 R 包。

Sep, 2023

ImDiffusion: 多元时间序列异常检测用填充扩散模型

该研究提出了一种使用时间序列插补和扩散模型相结合的新型异常检测框架 ImDiffusion，用于准确和可靠地检测多元时间序列数据中的异常数据，该框架在基准数据集上的广泛实验中表现出较高的检测准确性和时效性，是一种开创性的方法。

Jul, 2023

TabADM：无监督表格异常检测与扩散模型

通过利用扩散算法的概率模型来进行无监督异常检测，该方法能够有效地学习正常样本的密度，并且在实际数据中展示了优越的检测能力。

Jul, 2023