通过扩散模型的类间图片混合提升图像分类

Mar, 2024

通过扩散模型的类间图片混合提升图像分类

Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model

Zhicai Wang, Longhui Wei, Tan Wang, Heyu Chen, Yanbin Hao...

TL;DR通过 Diff-Mix 方法进行图像翻译以实现数据增强，实现更好的忠实度和多样性平衡，从而在各种图像分类场景中显著提高性能。

Abstract

Text-to-image (T2I) generative models have recently emerged as a powerful tool, enabling the creation of photo-realistic images and giving rise to a multitude of applications. However, the effective integration of T2I models into fundamental image classification tasks remains an open q

text-to-image generative models image classification data augmentation techniques diff-mix image translations

发现论文，激发创造

扩散模型在有效数据增强中的应用

通过使用图像转图像的方法、以及预训练的文本到图像扩散模型将其参数化，解决了数据扩增过程中具有高级语义标注的动物种类等属性缺乏多样性的问题，并在少样本情境和杂草识别任务中得到实际应用。

Feb, 2023

多样性和扩散：对稳定扩散下合成图像分布的观察

通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究，揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题，同时提出了对 CLIP 嵌入几何的令人惊讶的见解。

Oct, 2023

多模态引导下的图像编辑与文本到图像扩散模型调查

图像编辑以满足用户特定需求为目标，近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾，介绍了综合的图像编辑范畴、各种控制信号和编辑场景，提出了一个统一的框架来规范编辑过程，并分成两个主要算法体系，为用户实现特定目标提供了一个设计空间。另外，对于基于训练的方法，我们讨论了它们的特点和适用场景，并介绍了在不同场景下源图像注入的方案。此外，我们还回顾了将二维技术应用于视频编辑，并突出了解决帧间不一致问题的解决方案。最后，我们讨论了该领域面临的开放性挑战，并提出了潜在的未来研究方向。

Jun, 2024

DiffuseMix：保持标签的扩充数据方法与扩散模型

最近，引入了一些基于图像混合的数据增强技术来改善深度神经网络的泛化能力。我们提出了一种名为 DiffuseMix 的新型数据增强技术，该技术利用扩散模型重塑训练图像，并使用我们量身定制的条件提示进行监督。DiffuseMix 在包括一般分类、细粒度分类、微调、数据稀缺性和对抗鲁棒性等任务上相较于现有最先进的方法取得了优越性能。

Apr, 2024

扩散模型生成的合成数据提升 ImageNet 分类准确性

本研究使用大规模的文本到图像扩散模型对分类条件模型进行微调，进而在 ImageNet 分类准确性得分上实现了显著的提升，证明了利用自然图像模型进行生成数据增强的可行性。

Apr, 2023

GenMix：结合生成与混合数据增强的医学影像分类

本研究提出了名为 GenMix 的新型数据增强技术，它结合了生成和混合方法以发挥两种方法的优势。通过在合成图像和真实数据之间进行混合，GenMix 改善了合成数据的质量和多样性，同时也提升了生成模型的新模式学习和混合模型的边界增强能力。验证实验证明 GenMix 提高了不同生成模型（包括 DCGAN，StyleGAN，Textual Inversion 和 Diffusion Models）在 CT 图像中分类肝脏病变的性能。值得注意的是，与无微调扩散模型的其他方法相比，采用 Textual Inversion 的提议方法在 FLL 数据集上表现更好。

May, 2024

使用扩散模型揭示文本 - 图像不一致性

为了解决在线误导信息的问题，该研究引入了 D-TIIL（基于扩散的文本 - 图像不一致性定位），采用文本对图像扩散模型来定位文本和图像对中的语义不一致性，并通过文本嵌入和修改后的图像区域进行可视化。

Apr, 2024

通过混合掩膜信息融合提升文本到图像编辑

基于扩散模型，本文旨在系统性地改进文本引导的图像编辑技术，以解决其局限性，通过在模型的自注意机制中引入人为注释来限制编辑范围，并将编辑后的图像与源图像和构建的中间图像进行融合，实验证明所提出的 ``MaSaFusion'' 显著提高了现有的文本到图像编辑技术。

May, 2024

DreamDistribution: 基于提示分布学习的文本 - 图像扩散模型

通过使用软提示，我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型，使得可以从一组参考图像中借鉴共性，并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示，从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力，并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性，比如文本到 3D 的转换，并通过自动评估和人工评估的定量分析证明了我们方法的有效性。

Dec, 2023

分离增强：用于文本到图像扩散模型的组合调优

通过引入两种新目标函数（Separate loss 和 Enhance loss），减少物体遮挡区域重叠和最大化注意力分数，本研究提出了一个与传统方法不同的图文生成模型，通过关键参数的微调提高了其可扩展性和通用性，在图像真实性、文本 - 图像对齐性和适应性方面表现出卓越性能，将 Text-to-Image 扩散模型的组合能力和广泛适用性提升到了一个新的水平。

Dec, 2023