GeNIe：通过扩散生成难负样本图像

Dec, 2023

GeNIe：通过扩散生成难负样本图像

GeNIe: Generative Hard Negative Images Through Diffusion

Soroush Abbasi Koohpayegani, Anuj Singh, K L Navaneet, Hadi Jamali-Rad, Hamed Pirsiavash

TL;DR数据增强在训练深度模型中至关重要，防止其对有限数据过拟合。常见的数据增强方法虽然有效，但最近生成式人工智能的进展，如用于图像生成的扩散模型，使得更复杂的增强技术成为可能，能够生成类似于自然图像的数据。我们引入了 GeNIe，它利用一个以文本提示为条件的扩散模型，将对比的数据点（源类别的图像和目标类别的文本提示）合并起来生成对目标类别具有挑战性的样本。受到最近图像编辑方法的启发，我们限制扩散迭代次数和噪声量。这确保生成的图像保留源图像的低级和上下文特征，可能与目标类别产生冲突。我们的大量实验证明了我们的新型增强方法的有效性，尤其对于只有有限样本的类别有益。

Abstract

data augmentation is crucial in training deep models, preventing them from overfitting to limited data. Common data augmentation methods a

data augmentation deep models generative ai diffusion models augmentation method

发现论文，激发创造

扩散模型在有效数据增强中的应用

通过使用图像转图像的方法、以及预训练的文本到图像扩散模型将其参数化，解决了数据扩增过程中具有高级语义标注的动物种类等属性缺乏多样性的问题，并在少样本情境和杂草识别任务中得到实际应用。

Feb, 2023

扩增模型与检索中的数据增强视角

本文系统评估了扩散模型生成图像的现有方法，并研究了新的扩展方式以评估它们对数据增强的益处。作者发现，将扩散模型个性化到目标数据的方法优于简单的提示策略，但使用扩散模型的训练数据，通过简单的最近邻检索程序，直接提高下游性能。此项研究揭示了扩散模型在数据增强方面的局限性，同时也突显了其在生成新训练数据方面的潜力，以提高在简单的下游视觉任务中的性能。

Apr, 2023

在空中训练：使用生成数据提高图像分类

本文介绍了一种名为 “Diffusion Inversion” 的方法，该方法使用预先训练的生成模型 Stable Diffusion，通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖，即可生成多样高质量的训练图片，此方法通过三个关键部件成功替换了原始数据集，从而提高了样本复杂度并缩短了采样时间，不仅优于泛化提示导向方法和 KNN 检索基线，还可与常见数据增强技术兼容，提高少样本学习的可靠性。

May, 2023

扩散模型生成的合成数据提升 ImageNet 分类准确性

本研究使用大规模的文本到图像扩散模型对分类条件模型进行微调，进而在 ImageNet 分类准确性得分上实现了显著的提升，证明了利用自然图像模型进行生成数据增强的可行性。

Apr, 2023

DreamDA: 用扩散模型进行生成型数据增强

该论文提出了一个新的基于扩散模型的分类导向框架 DreamDA，通过考虑训练图像中的原始数据作为种子并扰动其反扩散过程，DreamDA 生成符合原始数据分布的多样样本，并引入自训练范式生成伪标签和使用合成数据训练分类器，在四个任务和五个数据集上进行的广泛实验证明了 DreamDA 在合成高质量多样的图像并生成准确标签方面的有效性。

Mar, 2024

视觉中的生成人工智能：模型、度量和应用的综述

这篇综述论文提供了关于生成式 AI 扩散和传统模型的全面概述，主要介绍了它们的基本技术、在不同领域的应用以及所面临的挑战，旨在为研究人员和从业者提供全面了解，并激发未来在这个令人兴奋的人工智能领域的创新。

Feb, 2024

欺骗性扩散：生成合成对抗样本

引入了欺骗扩散的概念 -- 训练生成 AI 模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同，欺骗扩散模型可以创建任意数量的新的、被错误分类的图像，这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法，包括在其他情况下难以找到的错误分类类型。在我们的实验中，我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞：如果攻击者能够秘密地污染部分训练数据，那么生成的扩散模型将产生相似比例的误导输出。

Jun, 2024

利用语言进行图像的语义增强

通过利用生成的图像来增强现有数据集的技术，该论文探讨了各种有效的数据增强策略，以提高深度学习模型的跨域泛化能力。

Apr, 2024

利用有损扩散模型增强图像布局控制

扩散模型为一种强大的生成模型，能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容，然而，仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制，而这取决于初始噪声分布。本文探讨了两种改进方法，并演示了当这两种方法结合使用时可以获得更好的性能。

May, 2024

从扩散模型获取训练数据

本文研究了图像扩散模型，如 DALL-E 2，Imagen 和 Stable Diffusion，发现它们从训练数据中记忆单个图像并在生成时发射此类图像，总结了此类模型的隐私风险和影响隐私保护培训的新进展。

Jan, 2023