扩散模型数据归因的有趣特性

Nov, 2023

Intriguing Properties of Data Attribution on Diffusion Models

Xiaosen Zheng, Tianyu Pang, Chao Du, Jing Jiang, Min Lin

TL;DR数据归因通过追溯模型输出至训练数据，以便为高质量或受版权保护的训练样本进行正确的归属评估，确保数据贡献者得到公正的补偿或认可。本研究在扩散模型上进行了广泛的实验和消融研究，特别关注 DDPMs 在 CIFAR-10、CelebA 以及在 ArtBench 上经过 LoRA 微调的稳定扩散模型的归因问题。有趣的是，我们报告了一些违背直觉的观察结果，即在理论上没有依据的设计选择在实践中表现出比以往基准线更好的性能，无论是线性数据建模得分还是对事实的评估。我们提出了一种更高效的方法来为扩散模型进行归因，而意外的发现表明，至少在非凸设置中，受到理论假设指导的构建可能导致较差的归因性能。该文提供了代码链接供参考。

Abstract

data attribution seeks to trace model outputs back to training data. With the recent development of diffusion models, →

data attribution diffusion models training data valuations attribution performance

发现论文，激发创造

数据引导扩散模型的旅途

通过扩散模型对大型数据集进行训练可以合成具有出色质量和多样性的照片级真实图像。然而，将这些图像归因于训练数据 - 即确定导致生成图像的具体训练示例 - 仍然是一项挑战。在本文中，我们提出了一个框架，（i）在扩散模型的上下文中提供了数据归因的形式概念，并（ii）允许我们反事实地验证这些归因。然后，我们提供了一种高效计算这些归因的方法。最后，我们将该方法应用于发现（和评估）在 CIFAR-10 上训练的去噪扩散概率模型及在 MS COCO 上训练的潜在扩散模型的这些归因。我们在这个 URL 提供了代码。

Dec, 2023

扩散模型的训练数据归因

使用编码集合的互补模型来评定如何影响扩散模型的输出，可提高模型可解释性，检验训练数据对于模型输出的影响，并作为生成模型

Jun, 2023

扩散模型的数据归因：时间步引起的对影响估计的偏差

Diffusion-TracIn 和 Diffusion-ReTrac 方法针对扩散模型的时间动态性进行了研究，通过重新归一化适应性，以减少普遍具有影响力的样本数量，从而提供了更直观的可视化，并通过各种评估指标和辅助任务证明了方法的有效性。

Jan, 2024

图像数据归因的简单有效基础线

数据归因是理解机器学习模型的关键方法之一，我们提出了一种基于自监督学习预训练的最小化基线方法，对图像数据进行归因，这种方法计算成本低、内存占用少、易于扩展，且在 CIFAR-10 和 ImageNet 上实现了与现有方法相媲美甚至更好的性能。

Nov, 2023

文本 - 图像模型的数据归因评估

通过调整现有大规模模型的方法进行数据归属性的评估，我们能够构建出受样例影响的合成图像数据集，并在此基础上评估多种数据归属算法及不同的特征空间。

Jun, 2023

模型归因的鲁棒性再思考

机器学习模型的可靠性和可信度要求其决策具有可解释性，尤其在安全关键应用中，模型预测和解释（作为特征归因）对微小且不可察觉的输入扰动要具有鲁棒性。最近的研究表明许多归因方法是脆弱的，并提出了改进这些方法或模型训练的方法。我们观察到脆弱归因的两个主要原因：首先，现有的鲁棒性度量指标（例如，top-k 交集）对于合理的本地归因偏移进行了过度惩罚，因此使得随机扰动呈现出强攻击的效果；其次，即使图像中存在多个重要部分，归因可以集中在一个小区域中。为了纠正这一点，我们提出了一些简单的方法来加强现有的度量指标和归因方法，这些方法将像素的局部性纳入鲁棒性度量指标中，并将像素位置的多样性纳入归因中。关于模型训练在归因鲁棒性中的作用，我们经验证实对抗性训练的模型在较小的数据集上具有更鲁棒的归因，然而，在较大的数据集中，这种优势消失了。代码可在此 https URL 获得。

Dec, 2023

扩增模型与检索中的数据增强视角

本文系统评估了扩散模型生成图像的现有方法，并研究了新的扩展方式以评估它们对数据增强的益处。作者发现，将扩散模型个性化到目标数据的方法优于简单的提示策略，但使用扩散模型的训练数据，通过简单的最近邻检索程序，直接提高下游性能。此项研究揭示了扩散模型在数据增强方面的局限性，同时也突显了其在生成新训练数据方面的潜力，以提高在简单的下游视觉任务中的性能。

Apr, 2023

反事实解释的扩散模型

本论文提出 DiME 方法，在使用最近传播模型的同时利用引导生成扩散过程，充分利用目标分类器的梯度生成输入实例的反事实解释，进一步通过提出一个新的度量标准 —— 相关差异，分析了目前评估虚假相关性的方法，并进行实验验证，结果表明该算法在 CelebA 上优于之前的最新研究成果。

Mar, 2022

从扩散模型获取训练数据

本文研究了图像扩散模型，如 DALL-E 2，Imagen 和 Stable Diffusion，发现它们从训练数据中记忆单个图像并在生成时发射此类图像，总结了此类模型的隐私风险和影响隐私保护培训的新进展。

Jan, 2023

DualView: 双重视角的数据归属

本研究介绍了一种基于替代建模的后续数据归因方法 DualView，它在计算效率和评估结果方面表现良好。通过使用适合的定量评估策略和相关的局部数据归因方法，我们发现 DualView 方法在需要较低计算资源的同时，表现不亚于其他方法。此外，该方法产生稀疏的解释，可以通过超参数进行调整。最后，我们展示了 DualView 可以将局部数据归因的解释与已有的局部特征归因方法兼容，并提供了在线的开源实现，以及与其他局部数据归因方法和此处报告的度量标准的实现，以便进行完全可复现性研究。

Feb, 2024