从无条件扩散模型中提取训练数据
扩散模型是近年来引起重要研究兴趣的高质量样本生成方法,我们的研究旨在深入理解扩散模型的记忆行为,包括有效模型记忆的定义与影响因素的量化分析。我们的实证研究发现数据分布、模型配置和训练过程等因素对记忆行为有重要影响,并且在扩散模型中,将训练数据与随机标签进行关联显著触发记忆行为。这对扩散模型的使用者具有实际意义,并为深度生成模型的理论研究提供了线索。
Oct, 2023
医学图像领域的生成潜在扩散模型具有广泛的应用,其中一个值得注意的应用是通过提出合成数据作为真实患者数据的替代品来实现隐私保护的开放数据共享。然而,这些模型容易遭受患者数据记忆化的问题,从而生成患者数据的副本而非新的合成样本,从而损害了保护患者数据的目的,甚至可能导致患者重新识别。针对这个问题的重要性,令人惊讶的是,在医学图像界中对此问题关注相对较少。为此,我们评估了用于医学图像合成的潜在扩散模型的记忆化问题。我们在 CT、MR 和 X 射线数据集上训练了 2D 和 3D 潜在扩散模型,用于合成数据生成。之后,我们通过自监督模型检查了训练数据记忆化的程度,并进一步研究了可能导致记忆化的各种因素,通过在不同设置下训练模型。我们发现,在所有数据集中,训练数据中有相当大的记忆化现象,分别在 CT、MRI 和 X 射线数据集中分别达到 41.7%、19.6% 和 32.6%。进一步的分析表明,增加训练数据量和使用数据增强可以减少记忆化,而过度训练会增加记忆化。总的来说,我们的结果表明在共享开放数据之前应该进行记忆化受影响的合成数据评估。
Feb, 2024
本文研究了图像扩散模型,如 DALL-E 2,Imagen 和 Stable Diffusion,发现它们从训练数据中记忆单个图像并在生成时发射此类图像,总结了此类模型的隐私风险和影响隐私保护培训的新进展。
Jan, 2023
通过深入研究 DPM 的表示能力,提出了一种名为 Repfusion 的新型知识迁移方法,该方法利用生成型 DPM 获取的知识用于识别任务,通过强化学习动态地根据不同的时间步骤从现成 DPM 中提取表示并作为学生网络的监督,实验证明此方法在多个任务中优于现有方法,揭示了 DPM 作为表示学习工具的潜力和生成模型在样本生成以外的用途。
Aug, 2023
对文本引导的图像生成模型进行了记忆化分析,提出三个必要条件进行定量分析,并利用反演技术验证目标图像的安全性,同时对稳定扩散模型进行了有效性实验证明。
May, 2024
本研究提出了一种新的有条件扩散模型 ShiftDDPMs,通过将条件引入正向过程,为每个条件分配一个独特的扩散轨迹,并通过定向规则来实现条件建模,从而提高模型的学习能力和生成效果。在图像合成方面进行了广泛的实验,证明了 ShiftDDPMs 的可行性和有效性。
Feb, 2023
通过使用针对重复图像和标题、高度特定用户提示的三种指导策略的新颖框架 Anti-Memorization Guidance(AMG),我们成功实现了在生成高质量图像和文本对齐的同时,消除了训练数据的记忆化问题。AMG 还具备创新的自动检测系统,能够在推断过程的每个步骤中检测潜在的记忆化,并允许有选择地应用指导策略,以最小程度地干扰原始采样过程,从而保留输出的实用性。我们将 AMG 应用于预训练的去噪扩散概率模型(DDPM)和稳定扩散,在各种生成任务中取得了成功,结果表明 AMG 是迄今为止第一种能够成功消除所有记忆化实例,对图像质量和文本对齐几乎没有或只有轻微影响的方法,这得到了 FID 和 CLIP 分数的证明。
Apr, 2024
本文提出了一种基于扩散模型的统一条件框架,结合了轻量级 UNet 和固有的差异模型来增强图像恢复的物理约束,采用基本和集成模块实现了对所有块的引导和其他辅助条件信息的整合,并提出了简单而有效的截距补丁分裂策略,将其用于低光量去噪、去模糊和 JPEG 图像恢复的挑战任务中,得到了显著的感知质量提升和恢复任务的推广。
May, 2023
通过优化传统的采样过程,基于视觉语言模型的训练无生成模型可以实现更好的文本 - 图像对齐。结合 Score Distillation Sampling 模块,我们的方法可以生成高质量的图像。
Feb, 2024