DiffImpute:具有去噪扩散概率模型的表格数据填充
这项工作提出了一个统一且原则性的扩散式框架,用于在各种缺失机制下从数据中学习丢失值,并通过多个制表符数据集的评估证明了其优于当前最先进的扩散模型。
Jul, 2023
我们提出了一种扩展的扩散模型,用于表格数据的数据填充和数据生成任务,通过引入条件注意机制、编码器 - 解码器 Transformer 和动态遮蔽来提高模型的性能。
Jul, 2024
本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法(TabCSDI),并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比,TabCSDI 是有效的,同时也强调了分类嵌入技术的重要性。
Oct, 2022
本文描述了一种更高效的迭代隐式概率模型 —— 去噪扩散隐式模型(DDIMs),通过构建一类非马尔科夫扩散过程来加速采样过程,相对于去噪扩散概率模型(DDPMs)可以使采样速度提升 10 倍至 50 倍。这种模型可以用于图像生成和语义意义化的图像内插。
Oct, 2020
通过对 DDPM 模型进行简单修改,可以在保持高质量样本的同时达到具有竞争力的对数似然值,并学习反向扩散过程的方差,从而使用数量级更少的正向传递采样。使用精度和召回率比较 DDPM 和 GAN 模型的性能,并证明这些模型的样本质量和似然值可以与模型容量和训练计算平稳地提高。
Feb, 2021
Fast-DDPM 是一种简单而有效的方法,可同时提高训练速度、采样速度和生成质量,通过仅使用 10 个时间步进行训练和采样,相比 DDPM,Fast-DDPM 能够在医学图像生成任务中优于基于卷积网络和生成对抗网络的当前最先进方法,并将训练时间缩短了 5 倍,采样时间缩短了 100 倍。
May, 2024
DiffPuter 是一种迭代方法,利用期望最大化算法和扩散模型进行缺失数据填补,其通过将缺失数据视为可在模型训练过程中更新的隐藏变量,并将缺失数据填补任务作为 EM 问题来处理。DiffPuter 通过扩散模型来学习观测到的数据和当前估计的缺失数据的联合分布,然后根据给定观测数据的条件概率利用在 M-step 学习的扩散模型重新估计缺失数据,通过这个迭代过程,DiffPuter 逐步改进了完整数据分布,产生了对缺失数据越来越准确的估计,理论分析和实证评估表明 DiffPuter 的优越性,与 16 种不同的填补方法相比,在 10 个不同的数据集上,DiffPuter 的 MAE 平均改善了 8.10%,RMSE 平均改善了 5.64%。
May, 2024
本文介绍了一种基于 Markovian 过程的 Upsampling Diffusion Probabilistic Model(UDPM),相较于传统的 Denoising Diffusion Probabilistic Models(DDPM),它在降低潜变量维度的同时,仅需 7 个扩散步骤即可生成 $256 imes 256$ 的高清图像。
May, 2023
本文提出了离散去噪扩散概率模型(D3PM),用于离散数据的扩散式生成模型,包括了仿真高斯核、嵌入空间中基于最邻近、引入吸收状态等过渡矩阵。研究表明过渡矩阵的选择对图像和文本领域下的生成模型结果至关重要,且提出的新损失函数在字符级别文本生成上取得了很好的效果。
Jul, 2021
基于 SEMRes-DDPM 的新型过采样方法有效提高了标签不平衡的表格数据生成质量,并在分类性能上胜过其他 SOTA 过采样方法。
Mar, 2024