本研究发现在使用类不平衡数据集训练扩散模型时,模型的多样性和保真度显著下降,提出了一种名为 “Class-Balancing Diffusion Models” 的方法来解决这个问题,并在 CIFAR100/CIFAR100LT 数据集上展现了出色的性能表现。
Apr, 2023
通过基于隐式扩散模型的特征增强方法,本研究解决计算机视觉中的长尾不平衡分布问题,并在 CIFAR-LT 和 ImageNet-LT 数据集上验证了模型的准确性提升。
Apr, 2024
这篇论文提出了一种新的长尾识别流程,通过利用长尾数据集本身生成一个平衡的代理,然后使用交叉熵进行优化。该方法使用了随机初始化的扩散模型,通过合成少数类别的新样本,并利用原始数据集中的关键信息过滤出有用的样本,而不需要任何外部数据或预训练模型权重,从而在 CIFAR10-LT、CIFAR100-LT 和 ImageNet-LT 等数据集上取得了领先竞争对手非常明显的最先进结果,同时具有丰富的解释性。
Mar, 2024
本文介绍了一种名为 “Diffusion Inversion” 的方法,该方法使用预先训练的生成模型 Stable Diffusion,通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖,即可生成多样高质量的训练图片,此方法通过三个关键部件成功替换了原始数据集,从而提高了样本复杂度并缩短了采样时间,不仅优于泛化提示导向方法和 KNN 检索基线,还可与常见数据增强技术兼容,提高少样本学习的可靠性。
May, 2023
通过分析真实样本复制过程中通过扩散和反向过程重建的合成样本,我们发现现代扩散模型不能完美地代表数据分布以用于训练鉴别性任务,这意味着合成数据集在分类性能上不如真实数据集。我们的研究结果表明,合成数据在增加反向步骤时集中于训练数据分布的模式,难以覆盖分布的外边缘,因此现代扩散模型在复制训练数据分布方面还有改进的空间。
Nov, 2023
本文研究了图像扩散模型,如 DALL-E 2,Imagen 和 Stable Diffusion,发现它们从训练数据中记忆单个图像并在生成时发射此类图像,总结了此类模型的隐私风险和影响隐私保护培训的新进展。
Jan, 2023
通过 Diff-Mix 方法进行图像翻译以实现数据增强,实现更好的忠实度和多样性平衡,从而在各种图像分类场景中显著提高性能。
DistDiff 是一种基于分布感知扩散模型的有效数据扩充框架,通过构建分层原型来逼近真实数据分布,优化扩散模型中的潜在数据点,实现生成与目标分布一致的样本,从而在数据扩充任务中取得显著的改进。
基于稀疏嵌入和 K-NN 方法,我们提出了一种基于预训练的稳定扩散模型的图像增强方法,以解决图像生成中的数据不平衡问题。
May, 2024
介绍了一种公平的扩散模型,用于生成平衡的敏感属性数据,并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题,同时保持生成样本的质量,并且在性能和公平性方面优于现有方法用于综合表格数据。