COCO 和 Weed 数据集的稳定扩散

Dec, 2023

Stable diffusion for Data Augmentation in COCO and Weed Datasets

Boyang Deng, Yuzhen Lu

TL;DR通过稳定扩散模型生成高分辨率图像，并利用这些图像提高检测模型的性能，这项研究有助于将稳定扩散模型应用于不同领域的分类和检测任务。

Abstract

generative models have increasingly impacted relative tasks ranging from image revision and object detection in computer vision to interior design and idea illustration in more general fields. stable diffusion is

generative models stable diffusion high-resolution images image generation detection models

发现论文，激发创造

稳定的航空目标检测扩散

针对航空图像的合成数据增强框架，包括通过稀疏到稠密的感兴趣区域提取来弥合语义差距，使用低秩适应（LORA）对扩展训练进行优化，最后使用复制粘贴方法将合成物体与背景组合，为航空对象检测提供了一种细致入微的合成数据方法。

Nov, 2023

稳定扩散数据集生成用于下游分类任务

在最近的生成人工智能的进展中，我们利用稳定扩散 2.0 模型来生成合成数据集，通过迁移学习、微调和生成参数优化技术改善了数据集在下游分类任务中的效用，我们提出了一种条件类别版本的模型，利用类编码器和关键生成参数的优化。使用我们的方法，在三分之一的情况下，合成数据集产生的模型胜过在真实数据集上训练的模型。

May, 2024

稳定扩散对三维场景了解多少？

通过探测扩散网络，研究不同的 3D 场景属性，我们发现 Stable Diffusion 在场景几何、支撑关系、阴影和深度方面表现优秀，但对遮挡不够有效。与其他大规模训练的模型相比，如 DINO 和 CLIP，我们发现 Stable Diffusion 的性能更强。

Oct, 2023

在空中训练：使用生成数据提高图像分类

本文介绍了一种名为 “Diffusion Inversion” 的方法，该方法使用预先训练的生成模型 Stable Diffusion，通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖，即可生成多样高质量的训练图片，此方法通过三个关键部件成功替换了原始数据集，从而提高了样本复杂度并缩短了采样时间，不仅优于泛化提示导向方法和 KNN 检索基线，还可与常见数据增强技术兼容，提高少样本学习的可靠性。

May, 2023

DiffuGen：使用稳定扩散模型生成带标签图像数据的自适应方法

通过使用稳定的扩散模型，DiffuGen 是一种简单且适应性强的方法，用于高效生成标记的图像数据集，以解决手动标记真实图像的耗时和成本昂贵的问题。论文介绍了 DiffuGen 的方法学，该方法将扩散模型的能力与无监督和监督的两种标签技术相结合，通过提示模板和文本倒置来增强扩散模型的能力。

Sep, 2023

从扩散模型获取训练数据

本文研究了图像扩散模型，如 DALL-E 2，Imagen 和 Stable Diffusion，发现它们从训练数据中记忆单个图像并在生成时发射此类图像，总结了此类模型的隐私风险和影响隐私保护培训的新进展。

Jan, 2023

扩散模型是否具备视觉和语言推理能力？

通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估，我们发现在 CLEVR 和 Winoground 等组成任务中 Stable Diffusion + DiffusionITM 的结果优于 CLIP。此外，我们发现 Stable Diffusion 2.1 在大部分情况下比 Stable Diffusion 1.5 更少受到刻板印象的影响。

May, 2023

反向稳定扩散：生成此图像所使用的提示是什么？

预测生成式扩散模型所生成图像的文本提示，采用联合回归和多标签词汇分类目标的新型学习框架，结合白盒和黑盒模型解决生成文本提示的问题，并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明，该学习框架在预测文本提示任务上取得了出色的结果，尤其在白盒模型上应用时效果最好，并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。

Aug, 2023

多样性和扩散：对稳定扩散下合成图像分布的观察

通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究，揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题，同时提出了对 CLIP 嵌入几何的令人惊讶的见解。

Oct, 2023

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023