文本 - 图像模型的数据归因评估 | BriefGPT

Jun, 2023

文本 - 图像模型的数据归因评估

Evaluating Data Attribution for Text-to-Image Models

Sheng-Yu Wang, Alexei A. Efros, Jun-Yan Zhu, Richard Zhang

TL;DR通过调整现有大规模模型的方法进行数据归属性的评估，我们能够构建出受样例影响的合成图像数据集，并在此基础上评估多种数据归属算法及不同的特征空间。

Abstract

While large text-to-image models are able to synthesize "novel" images, these images are necessarily a reflection of the training data. The problem of data attribution in such models -- which of the images in the training set are most responsible for the appearance of a given generated

text-to-image models data attribution exemplar object synthetic images feature spaces

发现论文，激发创造

通过取消合成图像对文本至图像模型进行数据归因

为了识别最具影响力的训练图像以生成新图像，我们提出了一种新的方法，通过模拟反学习合成图像、增加输出图像上的训练损失，并通过代理遗忘方式找出在反学习过程中具有显著损失偏差的训练图像，并将其标记为有影响力的图像。通过与从头开始重新训练的计算密集但 “黄金标准” 的方法进行评估，我们展示了我们的方法相比之前的方法的优势。

Jun, 2024

图像数据归因的简单有效基础线

数据归因是理解机器学习模型的关键方法之一，我们提出了一种基于自监督学习预训练的最小化基线方法，对图像数据进行归因，这种方法计算成本低、内存占用少、易于扩展，且在 CIFAR-10 和 ImageNet 上实现了与现有方法相媲美甚至更好的性能。

Nov, 2023

数据引导扩散模型的旅途

通过扩散模型对大型数据集进行训练可以合成具有出色质量和多样性的照片级真实图像。然而，将这些图像归因于训练数据 - 即确定导致生成图像的具体训练示例 - 仍然是一项挑战。在本文中，我们提出了一个框架，（i）在扩散模型的上下文中提供了数据归因的形式概念，并（ii）允许我们反事实地验证这些归因。然后，我们提供了一种高效计算这些归因的方法。最后，我们将该方法应用于发现（和评估）在 CIFAR-10 上训练的去噪扩散概率模型及在 MS COCO 上训练的潜在扩散模型的这些归因。我们在这个 URL 提供了代码。

Dec, 2023

基于再生的无需训练的文本图像生成模型伪造图像的归因

通过反转图像的文本提示并将重构的提示放入不同的候选模型中来重新生成候选伪图片，通过计算并排序测试图片与候选图片的相似性，我们可以确定图片的来源模型，从而使模型的所有者对其模型的任何滥用负有责任。

Mar, 2024

在 RGB 及更多领域的文本到图像扩散模型中检测图像归属

对现代文本到图像 (T2I) 扩散模型进行了研究，这些模型可以生成非常逼真和具有创造力的图像。我们提供了广泛的分析，关于哪些推理阶段的超参数和图像修改是可辨认的。我们进一步调查了图像归属所依赖的视觉痕迹，通过扰乱高频细节和使用图像风格和结构的中级表示。我们的分析强调，与以前探索的视觉粒度相比，伪造图像在各个层面上都是可检测且可归属的。

Mar, 2024

扩散模型数据归因的有趣特性

数据归因通过追溯模型输出至训练数据，以便为高质量或受版权保护的训练样本进行正确的归属评估，确保数据贡献者得到公正的补偿或认可。本研究在扩散模型上进行了广泛的实验和消融研究，特别关注 DDPMs 在 CIFAR-10、CelebA 以及在 ArtBench 上经过 LoRA 微调的稳定扩散模型的归因问题。有趣的是，我们报告了一些违背直觉的观察结果，即在理论上没有依据的设计选择在实践中表现出比以往基准线更好的性能，无论是线性数据建模得分还是对事实的评估。我们提出了一种更高效的方法来为扩散模型进行归因，而意外的发现表明，至少在非凸设置中，受到理论假设指导的构建可能导致较差的归因性能。该文提供了代码链接供参考。

Nov, 2023

增强身份保护对于扩散个性化的数据观点

使用大型文本到图像模型生成图像的能力已经引起了巨大的变革，但是对于特定独特或个人化的视觉概念，如您的宠物、屋内物品等，并不能被原始模型捕捉到。本文通过采用数据为中心的方法，提出了一种新颖的正则化数据集生成策略，旨在解决文本连贯性丧失和身份保留问题，进一步提高图像质量，并能生成符合输入文本提示的多样样本。实验证明，我们的数据为中心的方法在图像质量方面具有新的技术实力，在身份保留、多样性和文本对齐之间取得了最佳的平衡。

Nov, 2023

扩散模型的训练数据归因

使用编码集合的互补模型来评定如何影响扩散模型的输出，可提高模型可解释性，检验训练数据对于模型输出的影响，并作为生成模型

Jun, 2023

结合特征和实例归因来检测伪影

本文提出了一种新的训练特征归因方法，通过结合显著性图和实例归因方法，可以有效地发现训练数据中的人工瑕疵，并在实验中取得了良好的结果。

Jul, 2021

模型是否理解问题？

本文通过对深度学习模型的问答能力进行分析，引入了词汇重要性的概念，并借此来对问题进行扰动，从而建立对模型的评估及攻击。该方法可通过突出模型在正确率、逻辑、数据等方面的不足，提高模型的推理及总体性能表现。

May, 2018