稳定扩散数据集生成用于下游分类任务

May, 2024

稳定扩散数据集生成用于下游分类任务

Stable Diffusion Dataset Generation for Downstream Classification Tasks

Eugenio Lomurno, Matteo D'Oria, Matteo Matteucci

TL;DR在最近的生成人工智能的进展中，我们利用稳定扩散 2.0 模型来生成合成数据集，通过迁移学习、微调和生成参数优化技术改善了数据集在下游分类任务中的效用，我们提出了一种条件类别版本的模型，利用类编码器和关键生成参数的优化。使用我们的方法，在三分之一的情况下，合成数据集产生的模型胜过在真实数据集上训练的模型。

Abstract

Recent advances in generative artificial intelligence have enabled the creation of high-quality synthetic data that closely mimics real-world data. This paper explores the adaptation of the →

generative artificial intelligence synthetic data stable diffusion 2.0 model transfer learning classification tasks

发现论文，激发创造

COCO 和 Weed 数据集的稳定扩散

通过稳定扩散模型生成高分辨率图像，并利用这些图像提高检测模型的性能，这项研究有助于将稳定扩散模型应用于不同领域的分类和检测任务。

Dec, 2023

大数据神话：使用扩散模型进行数据集生成以训练深度检测模型

本研究提出了一种通过微调预训练的稳定扩散模型生成合成数据集的框架，并用于对象检测模型的训练，研究结果表明，在苹果果园检测中，合成数据训练的对象检测模型的性能与真实世界图像训练得到的基线模型相似，这表明了合成数据生成技术作为深度模型训练的可行替代方法的潜力。

Jun, 2023

合成与真实之间的鸿沟：利用迁移学习探索稳定扩散生成数据边界

通过对于学生模型的不同层进行实验研究，本文发现学生模型的精度下降主要源于模型的最后几层，进而调查了其他因素的影响，同时结合研究成果提出了通过在最后几层上使用真实数据对合成训练的模型进行微调来改善训练数据使用效率和模型准确度之间的权衡问题。

May, 2024

在空中训练：使用生成数据提高图像分类

本文介绍了一种名为 “Diffusion Inversion” 的方法，该方法使用预先训练的生成模型 Stable Diffusion，通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖，即可生成多样高质量的训练图片，此方法通过三个关键部件成功替换了原始数据集，从而提高了样本复杂度并缩短了采样时间，不仅优于泛化提示导向方法和 KNN 检索基线，还可与常见数据增强技术兼容，提高少样本学习的可靠性。

May, 2023

通过实施合成图像数据集创建流程进行视觉汽车品牌分类

利用 Stable Diffusion 进行合成图像数据集，通过 YOLOv8 自动边界框检测和质量评估，演示了仅使用合成数据训练图像分类器的可行性，并自动化了图像生成流程。

Jun, 2024

Derm-T2IM: 使用稳定的扩散模型利用合成皮肤损伤数据，通过 ViT 和 CNN 提升皮肤疾病分类

研究探讨了通过稳定扩散模型生成的皮肤镜合成数据的利用，作为增强机器学习模型训练鲁棒性的策略。实验结果表明，通过稳定扩散模型生成的合成数据有助于提高卷积神经网络和视觉转换器模型的鲁棒性和适应性，对于两个不同的真实世界皮肤病变数据集，其效果显著。

Jan, 2024

DiffuGen：使用稳定扩散模型生成带标签图像数据的自适应方法

通过使用稳定的扩散模型，DiffuGen 是一种简单且适应性强的方法，用于高效生成标记的图像数据集，以解决手动标记真实图像的耗时和成本昂贵的问题。论文介绍了 DiffuGen 的方法学，该方法将扩散模型的能力与无监督和监督的两种标签技术相结合，通过提示模板和文本倒置来增强扩散模型的能力。

Sep, 2023

DatasetDM: 使用扩散模型合成带有感知标注的数据

通过使用基于 DALL-E 和扩散模型的生成模型，我们提出了 DatasetDM，一个通用的数据集生成模型，可以生成各种合成图像和相应的高质量感知注释。训练仅需要少于 1％的手动标记图像，使得生成无限大的注释数据集成为可能。我们生成了具有丰富密集像素级标签的数据集，并在语义分割和实例分割方面取得了最先进的结果。

Aug, 2023

从扩散模型获取训练数据

本文研究了图像扩散模型，如 DALL-E 2，Imagen 和 Stable Diffusion，发现它们从训练数据中记忆单个图像并在生成时发射此类图像，总结了此类模型的隐私风险和影响隐私保护培训的新进展。

Jan, 2023

通过稳定扩散提高合成数据多样性对零样本分类的促进效果

本文研究了使用扩散模型生成的合成数据对分类器进行训练的零样本分类任务，并通过多元性模型提高数据集的多样性改进了其性能，通过这一认识为任何分类模型赋予了零样本分类能力。

Feb, 2023