将扩散模型的全局特性归因给数据组的高效 Shapley 值
数据归因通过追溯模型输出至训练数据,以便为高质量或受版权保护的训练样本进行正确的归属评估,确保数据贡献者得到公正的补偿或认可。本研究在扩散模型上进行了广泛的实验和消融研究,特别关注 DDPMs 在 CIFAR-10、CelebA 以及在 ArtBench 上经过 LoRA 微调的稳定扩散模型的归因问题。有趣的是,我们报告了一些违背直觉的观察结果,即在理论上没有依据的设计选择在实践中表现出比以往基准线更好的性能,无论是线性数据建模得分还是对事实的评估。我们提出了一种更高效的方法来为扩散模型进行归因,而意外的发现表明,至少在非凸设置中,受到理论假设指导的构建可能导致较差的归因性能。该文提供了代码链接供参考。
Nov, 2023
本文提出了分布式数据 Shapley 值(DShapley),该值是将 Shapley 值等博弈理论概念开发到了机器学习的统计框架,并可以应用于识别对学习算法有用或有害的数据点。本文通过导出线性回归,二元分类和非参数密度估计的 DShapley 的第一批分析表达式,提供了新的算法来快速估计 DShapley,这些公式直接解释并为不同数据类型提供量化的见解。
Jul, 2020
提出一个新的统计框架 —— 分布 Shapley,其定义了基于潜在数据分布的点的价值,解决了数据 Shapley 框架的限制,并使用该框架开发了一个新的算法,运行速度比计算(非分布式)数据 Shapley 值的最先进算法快两个数量级,对各种数据集进行了应用并证明了它在数据市场环境中的实用性。
Feb, 2020
通过利用机器学习问题的结构性质,我们提出了一种更高效的近似数据 Shapley 值的方法,此方法在不同学习设置中包括随机梯度下降和凸、非凸损失函数中证明了其近似 Shapley 值的准确性收敛性。实验证明,这种方法在保持数据的近似价值和排名的同时,提高了近似速度最高可达 9.9 倍,并且在使用小的子集进行精确评估时,对预训练网络的效率更高。
Nov, 2023
通过使用 Shapley 值来量化艺术家在生成图片中的贡献并公平分配奖励,本研究提出了一种结构化模型开发者和数据提供者之间合作的方法。
Mar, 2024
本文提出了一种基于离散均匀分布的 Shapley 值近似估计方法,以更高效地进行数据集估价和数据共享,并通过多个数据集估价基准测试表明 DU-Shapley 的效果优于其他 Shapley 估算方法。
Jun, 2023
数据评估在近年来引起了越来越多的关注,鉴于高质量数据在各种应用中的重要作用,特别是在机器学习任务中。本文探讨了全局和局部价值分布的特征,提出了一种基于所探测到的分布特征的新的数据评估方法,并提出了一种解决动态数据评估问题的新路径,通过制定一个整合全局和局部价值分布信息的优化问题。广泛的实验表明了我们提出方法的有效性和高效性,验证了全局和局部价值分布在数据评估中的重要潜力。
May, 2024
在这篇论文中,我们提出了一种针对实例归属的鲁棒性解释方法,通过引入 Shapley 值的高效逼近方法来提高实例归属和其他数据相关应用的性能,在大型语言模型上进行了广义的推广。
Jun, 2024
提出了一种名为 TS-DShapley 的算法,通过一种高效的基于采样的方法和一种数据价值信息的传递方法,大大减少了 Shapley 基于数据评估的计算成本,可以对大型预训练语言模型进行微调,并在基准自然语言理解(NLU)数据集上提升了语言模型的性能。
Jun, 2023
通过计算每个数据子集对模型准确性的效用近似值,在单个模型训练期间推导 CHG(Conduct of Hardness and Gradient)评分的 Shapley 值闭式表达式,我们在大规模数据集上将数据估值方法从多次模型重训练的形式改进为等效于单次模型重训练,极大地提高了计算效率。同时,我们还利用 CHG Shapley 进行实时数据选择,证明其在识别高价值和有噪声数据方面的有效性。CHG Shapley 通过高效的数据估值方法促进了可信的模型训练,为信任值机器学习引入了一种新的以数据为中心的视角。
Jun, 2024