混合类型表格数据的连续扩散
介绍了一种公平的扩散模型,用于生成平衡的敏感属性数据,并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题,同时保持生成样本的质量,并且在性能和公平性方面优于现有方法用于综合表格数据。
Apr, 2024
本研究提出了一种名为 CoDi 的方法,通过差分模型将连续变量和离散变量分开处理并相互条件,并引入对比学习方法进行负采样以进一步绑定扩散模型,以提高人工合成表格数据的准确性。
Apr, 2023
本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法(TabCSDI),并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比,TabCSDI 是有效的,同时也强调了分类嵌入技术的重要性。
Oct, 2022
这项工作提出了一个统一且原则性的扩散式框架,用于在各种缺失机制下从数据中学习丢失值,并通过多个制表符数据集的评估证明了其优于当前最先进的扩散模型。
Jul, 2023
该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型(连续和分类)表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作,我们使用了 XGBoost,一种流行的梯度提升树(GBT)方法。我们的方法在多个数据集上经验性地表明:当训练数据集是干净的或受到缺失数据影响时,它能够生成高度逼真的合成数据,并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法,并且可以使用 CPU 并行训练,无需 GPU。为了方便使用,我们通过 PyPI 发布了我们的 Python 库和 CRAN 上的 R 包。
Sep, 2023
本文综述了最近的扩散模型在结构化数据中的应用情况及相关研究工作,重点介绍了基于分数的扩散模型理论以及在数据驱动的常规任务和特定领域应用中采用结构化数据模型的先驱工作,分析和讨论了现有工作的局限性和挑战,并提出了潜在的研究方向。
Jun, 2023
本文通过导出一个变分框架来推导连续时间生成扩散理论,并表明该理论中最小化匹配得分损失等价于最大化该理论内所提出的可逆 SDE 插件的似然度的下限。
Jun, 2021
我们提出了一种扩展的扩散模型,用于表格数据的数据填充和数据生成任务,通过引入条件注意机制、编码器 - 解码器 Transformer 和动态遮蔽来提高模型的性能。
Jul, 2024
我们提出了一种受扩散模型启发的深度随机特征模型,它具有可解释性,并给出了与具有相同可训练参数数量的全连接神经网络相当的数值结果。我们通过对采样数据分布和真实分布之间的得分匹配性质的属性来推导了随机特征的泛化界限,并通过在时尚 MNIST 数据集和乐器音频数据上生成样本来验证我们的发现。
Oct, 2023