COCO 和 Weed 数据集的稳定扩散
针对航空图像的合成数据增强框架,包括通过稀疏到稠密的感兴趣区域提取来弥合语义差距,使用低秩适应(LORA)对扩展训练进行优化,最后使用复制粘贴方法将合成物体与背景组合,为航空对象检测提供了一种细致入微的合成数据方法。
Nov, 2023
在最近的生成人工智能的进展中,我们利用稳定扩散 2.0 模型来生成合成数据集,通过迁移学习、微调和生成参数优化技术改善了数据集在下游分类任务中的效用,我们提出了一种条件类别版本的模型,利用类编码器和关键生成参数的优化。使用我们的方法,在三分之一的情况下,合成数据集产生的模型胜过在真实数据集上训练的模型。
May, 2024
通过探测扩散网络,研究不同的 3D 场景属性,我们发现 Stable Diffusion 在场景几何、支撑关系、阴影和深度方面表现优秀,但对遮挡不够有效。与其他大规模训练的模型相比,如 DINO 和 CLIP,我们发现 Stable Diffusion 的性能更强。
Oct, 2023
本文介绍了一种名为 “Diffusion Inversion” 的方法,该方法使用预先训练的生成模型 Stable Diffusion,通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖,即可生成多样高质量的训练图片,此方法通过三个关键部件成功替换了原始数据集,从而提高了样本复杂度并缩短了采样时间,不仅优于泛化提示导向方法和 KNN 检索基线,还可与常见数据增强技术兼容,提高少样本学习的可靠性。
May, 2023
通过使用稳定的扩散模型,DiffuGen 是一种简单且适应性强的方法,用于高效生成标记的图像数据集,以解决手动标记真实图像的耗时和成本昂贵的问题。论文介绍了 DiffuGen 的方法学,该方法将扩散模型的能力与无监督和监督的两种标签技术相结合,通过提示模板和文本倒置来增强扩散模型的能力。
Sep, 2023
本文研究了图像扩散模型,如 DALL-E 2,Imagen 和 Stable Diffusion,发现它们从训练数据中记忆单个图像并在生成时发射此类图像,总结了此类模型的隐私风险和影响隐私保护培训的新进展。
Jan, 2023
通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估,我们发现在 CLEVR 和 Winoground 等组成任务中 Stable Diffusion + DiffusionITM 的结果优于 CLIP。此外,我们发现 Stable Diffusion 2.1 在大部分情况下比 Stable Diffusion 1.5 更少受到刻板印象的影响。
May, 2023
预测生成式扩散模型所生成图像的文本提示,采用联合回归和多标签词汇分类目标的新型学习框架,结合白盒和黑盒模型解决生成文本提示的问题,并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明,该学习框架在预测文本提示任务上取得了出色的结果,尤其在白盒模型上应用时效果最好,并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。
Aug, 2023
通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究,揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题,同时提出了对 CLIP 嵌入几何的令人惊讶的见解。
Oct, 2023
该论文提出了一种名为 DSD 的创新方法,它利用预训练的 text-to-image 扩散模型进行少样本判别性学习,并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响,并通过基于注意力的提示学习对模型进行微调,实现图文匹配,并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。
May, 2023