扩散模型的训练数据归因
通过扩散模型对大型数据集进行训练可以合成具有出色质量和多样性的照片级真实图像。然而,将这些图像归因于训练数据 - 即确定导致生成图像的具体训练示例 - 仍然是一项挑战。在本文中,我们提出了一个框架,(i)在扩散模型的上下文中提供了数据归因的形式概念,并(ii)允许我们反事实地验证这些归因。然后,我们提供了一种高效计算这些归因的方法。最后,我们将该方法应用于发现(和评估)在 CIFAR-10 上训练的去噪扩散概率模型及在 MS COCO 上训练的潜在扩散模型的这些归因。我们在这个 URL 提供了代码。
Dec, 2023
Diffusion-TracIn 和 Diffusion-ReTrac 方法针对扩散模型的时间动态性进行了研究,通过重新归一化适应性,以减少普遍具有影响力的样本数量,从而提供了更直观的可视化,并通过各种评估指标和辅助任务证明了方法的有效性。
Jan, 2024
数据归因通过追溯模型输出至训练数据,以便为高质量或受版权保护的训练样本进行正确的归属评估,确保数据贡献者得到公正的补偿或认可。本研究在扩散模型上进行了广泛的实验和消融研究,特别关注 DDPMs 在 CIFAR-10、CelebA 以及在 ArtBench 上经过 LoRA 微调的稳定扩散模型的归因问题。有趣的是,我们报告了一些违背直觉的观察结果,即在理论上没有依据的设计选择在实践中表现出比以往基准线更好的性能,无论是线性数据建模得分还是对事实的评估。我们提出了一种更高效的方法来为扩散模型进行归因,而意外的发现表明,至少在非凸设置中,受到理论假设指导的构建可能导致较差的归因性能。该文提供了代码链接供参考。
Nov, 2023
本文研究了图像扩散模型,如 DALL-E 2,Imagen 和 Stable Diffusion,发现它们从训练数据中记忆单个图像并在生成时发射此类图像,总结了此类模型的隐私风险和影响隐私保护培训的新进展。
Jan, 2023
我们提出了两种高效的集成策略,DROPOUT ENSEMBLE 和 LORA ENSEMBLE,可以显著降低训练时间(高达 80%),服务时间(高达 60%)和空间成本(高达 80%),在保持与原有独立集成相似的归因效果的同时,有效地改善了计算效率和归因效果的 Pareto 最前沿。
May, 2024
通过分析真实样本复制过程中通过扩散和反向过程重建的合成样本,我们发现现代扩散模型不能完美地代表数据分布以用于训练鉴别性任务,这意味着合成数据集在分类性能上不如真实数据集。我们的研究结果表明,合成数据在增加反向步骤时集中于训练数据分布的模式,难以覆盖分布的外边缘,因此现代扩散模型在复制训练数据分布方面还有改进的空间。
Nov, 2023
本文系统评估了扩散模型生成图像的现有方法,并研究了新的扩展方式以评估它们对数据增强的益处。作者发现,将扩散模型个性化到目标数据的方法优于简单的提示策略,但使用扩散模型的训练数据,通过简单的最近邻检索程序,直接提高下游性能。此项研究揭示了扩散模型在数据增强方面的局限性,同时也突显了其在生成新训练数据方面的潜力,以提高在简单的下游视觉任务中的性能。
Apr, 2023
通过在线和离线阶段,我们提出了一种高效的框架,评估训练数据对目标模型的影响,通过反向梯度匹配问题建立了一个精简同义词集,用于加速离开一个样本的过程,并计算评估目标基于的归因矩阵。实验证明,相比直接重新训练方法,我们的方法在实现了可比较的模型行为评估的同时,显著加快了过程。
Apr, 2024
本论文探究了扩散模型在人脸生成中存在的偏见来源,如性别、种族和年龄等属性,并调查了数据集大小对不同属性类别下扩散模型和对抗生成网络(GAN)模型的属性组成和感知质量的影响,结果发现扩散模型往往会恶化训练数据的分布偏见,同时受到数据集大小的影响,而拥有较多样本的平衡数据集训练的 GAN 模型在不同属性方面表现出较小的偏差。
May, 2023