通过重叠优化训练类不平衡的扩散模型

Feb, 2024

通过重叠优化训练类不平衡的扩散模型

Training Class-Imbalanced Diffusion Model Via Overlap Optimization

Divin Yan, Lu Qi, Vincent Tao Hu, Ming-Hsuan Yang, Meng Tang

TL;DR使用对比学习方法最小化不同类别合成图像分布之间的重叠，以改善长尾分布数据集中稀有类别的图像合成质量，并证明该方法能够有效处理基于扩散的生成和分类模型中的不平衡数据。

Abstract

diffusion models have made significant advances recently in high-quality image synthesis and related tasks. However, diffusion models trai

diffusion models image synthesis long-tailed distributions contrastive learning imbalanced data

发现论文，激发创造

类平衡扩散模型

本研究发现在使用类不平衡数据集训练扩散模型时，模型的多样性和保真度显著下降，提出了一种名为 “Class-Balancing Diffusion Models” 的方法来解决这个问题，并在 CIFAR100/CIFAR100LT 数据集上展现了出色的性能表现。

Apr, 2023

基于潜变扩散模型的长尾识别

通过基于隐式扩散模型的特征增强方法，本研究解决计算机视觉中的长尾不平衡分布问题，并在 CIFAR-LT 和 ImageNet-LT 数据集上验证了模型的准确性提升。

Apr, 2024

DiffuLT: 如何使扩散模型对于长尾识别变得有益

这篇论文提出了一种新的长尾识别流程，通过利用长尾数据集本身生成一个平衡的代理，然后使用交叉熵进行优化。该方法使用了随机初始化的扩散模型，通过合成少数类别的新样本，并利用原始数据集中的关键信息过滤出有用的样本，而不需要任何外部数据或预训练模型权重，从而在 CIFAR10-LT、CIFAR100-LT 和 ImageNet-LT 等数据集上取得了领先竞争对手非常明显的最先进结果，同时具有丰富的解释性。

Mar, 2024

在空中训练：使用生成数据提高图像分类

本文介绍了一种名为 “Diffusion Inversion” 的方法，该方法使用预先训练的生成模型 Stable Diffusion，通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖，即可生成多样高质量的训练图片，此方法通过三个关键部件成功替换了原始数据集，从而提高了样本复杂度并缩短了采样时间，不仅优于泛化提示导向方法和 KNN 检索基线，还可与常见数据增强技术兼容，提高少样本学习的可靠性。

May, 2023

关于扩散模型在合成训练数据集中的限制

通过分析真实样本复制过程中通过扩散和反向过程重建的合成样本，我们发现现代扩散模型不能完美地代表数据分布以用于训练鉴别性任务，这意味着合成数据集在分类性能上不如真实数据集。我们的研究结果表明，合成数据在增加反向步骤时集中于训练数据分布的模式，难以覆盖分布的外边缘，因此现代扩散模型在复制训练数据分布方面还有改进的空间。

Nov, 2023

从扩散模型获取训练数据

本文研究了图像扩散模型，如 DALL-E 2，Imagen 和 Stable Diffusion，发现它们从训练数据中记忆单个图像并在生成时发射此类图像，总结了此类模型的隐私风险和影响隐私保护培训的新进展。

Jan, 2023

通过扩散模型的类间图片混合提升图像分类

通过 Diff-Mix 方法进行图像翻译以实现数据增强，实现更好的忠实度和多样性平衡，从而在各种图像分类场景中显著提高性能。

Mar, 2024

基于扩散模型的数据扩充技术

DistDiff 是一种基于分布感知扩散模型的有效数据扩充框架，通过构建分层原型来逼近真实数据分布，优化扩散模型中的潜在数据点，实现生成与目标分布一致的样本，从而在数据扩充任务中取得显著的改进。

Mar, 2024

通过特征空间增强和迭代学习实现长尾图像生成

基于稀疏嵌入和 K-NN 方法，我们提出了一种基于预训练的稳定扩散模型的图像增强方法，以解决图像生成中的数据不平衡问题。

May, 2024

用扩散模型合成平衡的混合类型表格数据

介绍了一种公平的扩散模型，用于生成平衡的敏感属性数据，并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题，同时保持生成样本的质量，并且在性能和公平性方面优于现有方法用于综合表格数据。

Apr, 2024