稳定扩散数据集生成用于下游分类任务
本研究提出了一种通过微调预训练的稳定扩散模型生成合成数据集的框架,并用于对象检测模型的训练,研究结果表明,在苹果果园检测中,合成数据训练的对象检测模型的性能与真实世界图像训练得到的基线模型相似,这表明了合成数据生成技术作为深度模型训练的可行替代方法的潜力。
Jun, 2023
通过对于学生模型的不同层进行实验研究,本文发现学生模型的精度下降主要源于模型的最后几层,进而调查了其他因素的影响,同时结合研究成果提出了通过在最后几层上使用真实数据对合成训练的模型进行微调来改善训练数据使用效率和模型准确度之间的权衡问题。
May, 2024
本文介绍了一种名为 “Diffusion Inversion” 的方法,该方法使用预先训练的生成模型 Stable Diffusion,通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖,即可生成多样高质量的训练图片,此方法通过三个关键部件成功替换了原始数据集,从而提高了样本复杂度并缩短了采样时间,不仅优于泛化提示导向方法和 KNN 检索基线,还可与常见数据增强技术兼容,提高少样本学习的可靠性。
May, 2023
利用 Stable Diffusion 进行合成图像数据集,通过 YOLOv8 自动边界框检测和质量评估,演示了仅使用合成数据训练图像分类器的可行性,并自动化了图像生成流程。
Jun, 2024
研究探讨了通过稳定扩散模型生成的皮肤镜合成数据的利用,作为增强机器学习模型训练鲁棒性的策略。实验结果表明,通过稳定扩散模型生成的合成数据有助于提高卷积神经网络和视觉转换器模型的鲁棒性和适应性,对于两个不同的真实世界皮肤病变数据集,其效果显著。
Jan, 2024
通过使用稳定的扩散模型,DiffuGen 是一种简单且适应性强的方法,用于高效生成标记的图像数据集,以解决手动标记真实图像的耗时和成本昂贵的问题。论文介绍了 DiffuGen 的方法学,该方法将扩散模型的能力与无监督和监督的两种标签技术相结合,通过提示模板和文本倒置来增强扩散模型的能力。
Sep, 2023
通过使用基于 DALL-E 和扩散模型的生成模型,我们提出了 DatasetDM,一个通用的数据集生成模型,可以生成各种合成图像和相应的高质量感知注释。训练仅需要少于 1%的手动标记图像,使得生成无限大的注释数据集成为可能。我们生成了具有丰富密集像素级标签的数据集,并在语义分割和实例分割方面取得了最先进的结果。
Aug, 2023
本文研究了图像扩散模型,如 DALL-E 2,Imagen 和 Stable Diffusion,发现它们从训练数据中记忆单个图像并在生成时发射此类图像,总结了此类模型的隐私风险和影响隐私保护培训的新进展。
Jan, 2023
本文研究了使用扩散模型生成的合成数据对分类器进行训练的零样本分类任务,并通过多元性模型提高数据集的多样性改进了其性能,通过这一认识为任何分类模型赋予了零样本分类能力。
Feb, 2023