通过扩散模型的类间图片混合提升图像分类
通过使用图像转图像的方法、以及预训练的文本到图像扩散模型将其参数化,解决了数据扩增过程中具有高级语义标注的动物种类等属性缺乏多样性的问题,并在少样本情境和杂草识别任务中得到实际应用。
Feb, 2023
通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究,揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题,同时提出了对 CLIP 嵌入几何的令人惊讶的见解。
Oct, 2023
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024
最近,引入了一些基于图像混合的数据增强技术来改善深度神经网络的泛化能力。我们提出了一种名为 DiffuseMix 的新型数据增强技术,该技术利用扩散模型重塑训练图像,并使用我们量身定制的条件提示进行监督。DiffuseMix 在包括一般分类、细粒度分类、微调、数据稀缺性和对抗鲁棒性等任务上相较于现有最先进的方法取得了优越性能。
Apr, 2024
本研究使用大规模的文本到图像扩散模型对分类条件模型进行微调,进而在 ImageNet 分类准确性得分上实现了显著的提升,证明了利用自然图像模型进行生成数据增强的可行性。
Apr, 2023
本研究提出了名为 GenMix 的新型数据增强技术,它结合了生成和混合方法以发挥两种方法的优势。通过在合成图像和真实数据之间进行混合,GenMix 改善了合成数据的质量和多样性,同时也提升了生成模型的新模式学习和混合模型的边界增强能力。验证实验证明 GenMix 提高了不同生成模型(包括 DCGAN,StyleGAN,Textual Inversion 和 Diffusion Models)在 CT 图像中分类肝脏病变的性能。值得注意的是,与无微调扩散模型的其他方法相比,采用 Textual Inversion 的提议方法在 FLL 数据集上表现更好。
May, 2024
为了解决在线误导信息的问题,该研究引入了 D-TIIL(基于扩散的文本 - 图像不一致性定位),采用文本对图像扩散模型来定位文本和图像对中的语义不一致性,并通过文本嵌入和修改后的图像区域进行可视化。
Apr, 2024
基于扩散模型,本文旨在系统性地改进文本引导的图像编辑技术,以解决其局限性,通过在模型的自注意机制中引入人为注释来限制编辑范围,并将编辑后的图像与源图像和构建的中间图像进行融合,实验证明所提出的 ``MaSaFusion'' 显著提高了现有的文本到图像编辑技术。
May, 2024
通过使用软提示,我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型,使得可以从一组参考图像中借鉴共性,并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示,从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力,并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性,比如文本到 3D 的转换,并通过自动评估和人工评估的定量分析证明了我们方法的有效性。
Dec, 2023
通过引入两种新目标函数(Separate loss 和 Enhance loss),减少物体遮挡区域重叠和最大化注意力分数,本研究提出了一个与传统方法不同的图文生成模型,通过关键参数的微调提高了其可扩展性和通用性,在图像真实性、文本 - 图像对齐性和适应性方面表现出卓越性能,将 Text-to-Image 扩散模型的组合能力和广泛适用性提升到了一个新的水平。
Dec, 2023