理解和减轻扩散模型中的复制现象
该研究聚焦于扩散模型中两种不同而未被充分研究的重复现象,即在扩散模型中的冗余复制,通过两个案例研究探讨了这些现象及其影响,旨在对生成模型在各种应用中进行更安全、更负责任的使用做出贡献。
Dec, 2023
对文本引导的图像生成模型进行了记忆化分析,提出三个必要条件进行定量分析,并利用反演技术验证目标图像的安全性,同时对稳定扩散模型进行了有效性实验证明。
May, 2024
研究论文概述:最近的文本到图像扩散模型在生成高质量图像方面展示了显著的能力,但是越来越多的研究表明这些模型从训练数据中记忆并复制图像,引发了对潜在版权侵权和隐私风险的巨大担忧。在这项研究中,我们通过检查交叉注意力机制与记忆现象的关系,提供了一种新的视角来理解这一现象。我们揭示了在记忆过程中,交叉注意力倾向于不成比例地关注特定标记的嵌入。扩散模型对这些标记嵌入进行了过度拟合,记住了相应的训练图像。为了阐明这一现象,我们进一步确定并讨论了与记忆相关的十分内在发现的交叉注意力。基于这些见解,我们提出了一种创新方法来检测和减轻扩散模型中的记忆现象。我们提出的方法的优势是在保留生成图像质量的同时不会影响这些模型的训练或推理过程的速度。
Mar, 2024
本文研究了图像扩散模型,如 DALL-E 2,Imagen 和 Stable Diffusion,发现它们从训练数据中记忆单个图像并在生成时发射此类图像,总结了此类模型的隐私风险和影响隐私保护培训的新进展。
Jan, 2023
本文研究了图像检索框架,让我们能够比较生成的图像与训练样本,并检测什么时候复制了内容。我们使用这个框架分析了多个数据集上训练的扩散模型,包括牛津花卉,Celeb-A,ImageNet 和 LAION,讨论了训练集大小等因素对内容复制率的影响。同时,我们还发现了一些这种扩散模型直接从其训练数据中复制的情况,包括流行的稳定扩散模型。
Dec, 2022
通过向受保护的数据集中注入记忆注入,我们提出了一种检测未经授权的数据使用的方法,分析模型是否对注入内容进行了记忆,从而可以检测非法使用未经授权数据的情况。
Jul, 2023
我们的研究通过对部分版权侵权进行探究,并使用与版权有很大差异的提示,解决了以往研究的局限性。我们开发了一个数据生成流程,为扩散模型中的版权研究创建数据集。使用我们的流程,我们创建了包含不同扩散模型中版权侵权样本的数据集,并在各种标准下进行评估。我们的结果显示,在一系列扩散模型中生成侵权内容的普遍性,包括最新的稳定扩散 XL 模型。
Sep, 2023
使用扩展语言模型和双重融合增强方法,本研究提出的方法可以显著减少扩散模型的复制行为,仅相比原始的扩散模型减少了 43.5%,同时保持了生成图像的多样性和质量。
Sep, 2023
通过对视频扩散模型的研究,我们系统调查了样本复制现象,分析了最近的视频合成扩散模型在无条件和有条件生成情景下对空间和时间内容的复制倾向,并提出了减少复制的策略和考虑复制问题的新评估策略。
Mar, 2024