MissDiff:在带有缺失值的表格数据上训练扩散模型
本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法(TabCSDI),并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比,TabCSDI 是有效的,同时也强调了分类嵌入技术的重要性。
Oct, 2022
我们提出了一种扩展的扩散模型,用于表格数据的数据填充和数据生成任务,通过引入条件注意机制、编码器 - 解码器 Transformer 和动态遮蔽来提高模型的性能。
Jul, 2024
DiffImpute 是一种新颖的去噪扩散概率模型(DDPM),它能针对缺失值进行可信的填充,通过四个针对表格特征的去噪网络和数据融合来提升观测和填充数据的一致性,实现有效的推理,显著优于其他方法。
Mar, 2024
介绍了一种公平的扩散模型,用于生成平衡的敏感属性数据,并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题,同时保持生成样本的质量,并且在性能和公平性方面优于现有方法用于综合表格数据。
Apr, 2024
DiffPuter 是一种迭代方法,利用期望最大化算法和扩散模型进行缺失数据填补,其通过将缺失数据视为可在模型训练过程中更新的隐藏变量,并将缺失数据填补任务作为 EM 问题来处理。DiffPuter 通过扩散模型来学习观测到的数据和当前估计的缺失数据的联合分布,然后根据给定观测数据的条件概率利用在 M-step 学习的扩散模型重新估计缺失数据,通过这个迭代过程,DiffPuter 逐步改进了完整数据分布,产生了对缺失数据越来越准确的估计,理论分析和实证评估表明 DiffPuter 的优越性,与 16 种不同的填补方法相比,在 10 个不同的数据集上,DiffPuter 的 MAE 平均改善了 8.10%,RMSE 平均改善了 5.64%。
May, 2024
通过结合评分匹配和评分插值,我们在这篇论文中提出了一种针对混合类型表格数据的得分生成模型。模型考虑了特征异质性,并允许自适应、可学习的噪声调度以提高样本质量。实验结果表明,我们的模型在质量上始终优于最先进的基准模型,并且噪声调度设计中的异质性考虑提升了样本质量。
Dec, 2023
通过使用生成模型特别是扩散模型,本研究引入了‘FinDiff',这是一种用于生成逼真金融表格数据的扩散模型,可用于各种监管下游任务,如经济情景建模、压力测试和欺诈检测,同时保证高保真度、隐私性和实用性。
Sep, 2023
该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型(连续和分类)表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作,我们使用了 XGBoost,一种流行的梯度提升树(GBT)方法。我们的方法在多个数据集上经验性地表明:当训练数据集是干净的或受到缺失数据影响时,它能够生成高度逼真的合成数据,并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法,并且可以使用 CPU 并行训练,无需 GPU。为了方便使用,我们通过 PyPI 发布了我们的 Python 库和 CRAN 上的 R 包。
Sep, 2023
该研究提出了一种使用时间序列插补和扩散模型相结合的新型异常检测框架 ImDiffusion,用于准确和可靠地检测多元时间序列数据中的异常数据,该框架在基准数据集上的广泛实验中表现出较高的检测准确性和时效性,是一种开创性的方法。
Jul, 2023