将扩散模型的全局特性归因给数据组的高效 Shapley 值

Jun, 2024

将扩散模型的全局特性归因给数据组的高效 Shapley 值

Efficient Shapley Values for Attributing Global Properties of Diffusion Models to Data Group

Chris Lin, Mingyu Lu, Chanwoo Kim, Su-In Lee

TL;DR通过采用模型修剪和微调的方法，我们开发了一种有效估计 Shapley 值的方法，以将扩散模型的全局属性归因于训练数据组，并通过三种应用案例进行了实证演示。

Abstract

As diffusion models are deployed in real-world settings, data attribution is needed to ensure fair acknowledgment for contributors of high-quality training data and to identify sources of harmful content. Previou

diffusion models data attribution shapley values global properties training data

发现论文，激发创造

扩散模型数据归因的有趣特性

数据归因通过追溯模型输出至训练数据，以便为高质量或受版权保护的训练样本进行正确的归属评估，确保数据贡献者得到公正的补偿或认可。本研究在扩散模型上进行了广泛的实验和消融研究，特别关注 DDPMs 在 CIFAR-10、CelebA 以及在 ArtBench 上经过 LoRA 微调的稳定扩散模型的归因问题。有趣的是，我们报告了一些违背直觉的观察结果，即在理论上没有依据的设计选择在实践中表现出比以往基准线更好的性能，无论是线性数据建模得分还是对事实的评估。我们提出了一种更高效的方法来为扩散模型进行归因，而意外的发现表明，至少在非凸设置中，受到理论假设指导的构建可能导致较差的归因性能。该文提供了代码链接供参考。

Nov, 2023

分布式 Shapley 值的高效计算和分析

本文提出了分布式数据 Shapley 值（DShapley），该值是将 Shapley 值等博弈理论概念开发到了机器学习的统计框架，并可以应用于识别对学习算法有用或有害的数据点。本文通过导出线性回归，二元分类和非参数密度估计的 DShapley 的第一批分析表达式，提供了新的算法来快速估计 DShapley，这些公式直接解释并为不同数据类型提供量化的见解。

Jul, 2020

数据价值评估的分布式框架

提出一个新的统计框架 —— 分布 Shapley，其定义了基于潜在数据分布的点的价值，解决了数据 Shapley 框架的限制，并使用该框架开发了一个新的算法，运行速度比计算（非分布式）数据 Shapley 值的最先进算法快两个数量级，对各种数据集进行了应用并证明了它在数据市场环境中的实用性。

Feb, 2020

数据评估的加速 Shapley 值近似算法

通过利用机器学习问题的结构性质，我们提出了一种更高效的近似数据 Shapley 值的方法，此方法在不同学习设置中包括随机梯度下降和凸、非凸损失函数中证明了其近似 Shapley 值的准确性收敛性。实验证明，这种方法在保持数据的近似价值和排名的同时，提高了近似速度最高可达 9.9 倍，并且在使用小的子集进行精确评估时，对预训练网络的效率更高。

Nov, 2023

Shapley 值驱动的公平奖励分配框架在 GenAI 生成内容中的应用

通过使用 Shapley 值来量化艺术家在生成图片中的贡献并公平分配奖励，本研究提出了一种结构化模型开发者和数据提供者之间合作的方法。

Mar, 2024

DU-Shapley: 一种有效数据集估价的 Shapley 值代理

本文提出了一种基于离散均匀分布的 Shapley 值近似估计方法，以更高效地进行数据集估价和数据共享，并通过多个数据集估价基准测试表明 DU-Shapley 的效果优于其他 Shapley 估算方法。

Jun, 2023

利用全球和本地统计信息进行数据估值

数据评估在近年来引起了越来越多的关注，鉴于高质量数据在各种应用中的重要作用，特别是在机器学习任务中。本文探讨了全局和局部价值分布的特征，提出了一种基于所探测到的分布特征的新的数据评估方法，并提出了一种解决动态数据评估问题的新路径，通过制定一个整合全局和局部价值分布信息的优化问题。广泛的实验表明了我们提出方法的有效性和高效性，验证了全局和局部价值分布在数据评估中的重要潜力。

May, 2024

有益还是有害的数据？无需微调的 Shapley 属性归因用于解释语言模型预测

在这篇论文中，我们提出了一种针对实例归属的鲁棒性解释方法，通过引入 Shapley 值的高效逼近方法来提高实例归属和其他数据相关应用的性能，在大型语言模型上进行了广义的推广。

Jun, 2024

使用转移的 Shapley 值对大语言模型进行微调的数据选择

提出了一种名为 TS-DShapley 的算法，通过一种高效的基于采样的方法和一种数据价值信息的传递方法，大大减少了 Shapley 基于数据评估的计算成本，可以对大型预训练语言模型进行微调，并在基准自然语言理解（NLU）数据集上提升了语言模型的性能。

Jun, 2023

CHG Shapley: 高效的数据评估与选择，迈向可靠的机器学习

通过计算每个数据子集对模型准确性的效用近似值，在单个模型训练期间推导 CHG（Conduct of Hardness and Gradient）评分的 Shapley 值闭式表达式，我们在大规模数据集上将数据估值方法从多次模型重训练的形式改进为等效于单次模型重训练，极大地提高了计算效率。同时，我们还利用 CHG Shapley 进行实时数据选择，证明其在识别高价值和有噪声数据方面的有效性。CHG Shapley 通过高效的数据估值方法促进了可信的模型训练，为信任值机器学习引入了一种新的以数据为中心的视角。

Jun, 2024