数据 Shapley: 机器学习数据的公平估值

Apr, 2019

数据 Shapley: 机器学习数据的公平估值

Data Shapley: Equitable Valuation of Data for Machine Learning

Amirata Ghorbani, James Zou

TL;DR本研究提出一种考虑数据公正价值的方法，通过估算数据 Shapley 值来解决在监督学习中评估数据价值的困难，并且发现该方法优于其他流行的评估方法，可以有效提高预测器的性能。

Abstract

As data becomes the fuel driving technological and economic growth, a fundamental challenge is how to quantify the value of data in algorithmic predictions and decisions. For example, in healthcare and consumer markets, it has been suggested that individuals should be compensated for the data that they generate, but it is not clear what is an equitable valua

data valuation supervised machine learning data shapley monte carlo gradient-based methods

发现论文，激发创造

数据评估的加速 Shapley 值近似算法

通过利用机器学习问题的结构性质，我们提出了一种更高效的近似数据 Shapley 值的方法，此方法在不同学习设置中包括随机梯度下降和凸、非凸损失函数中证明了其近似 Shapley 值的准确性收敛性。实验证明，这种方法在保持数据的近似价值和排名的同时，提高了近似速度最高可达 9.9 倍，并且在使用小的子集进行精确评估时，对预训练网络的效率更高。

Nov, 2023

概率分类器上的 Shapley 值

本文提出了一种概率 Shapley 值（P-Shapley），通过构建一个基于概率分类器的类概率效用函数来量化每个数据点对概率分类器的边际贡献，并提供几种置信度校准的激活函数，从而实现评估数据重要性以构建高可用性和可信赖性 ML 模型的目的。

Jun, 2023

数据价值评估的分布式框架

提出一个新的统计框架 —— 分布 Shapley，其定义了基于潜在数据分布的点的价值，解决了数据 Shapley 框架的限制，并使用该框架开发了一个新的算法，运行速度比计算（非分布式）数据 Shapley 值的最先进算法快两个数量级，对各种数据集进行了应用并证明了它在数据市场环境中的实用性。

Feb, 2020

DU-Shapley: 一种有效数据集估价的 Shapley 值代理

本文提出了一种基于离散均匀分布的 Shapley 值近似估计方法，以更高效地进行数据集估价和数据共享，并通过多个数据集估价基准测试表明 DU-Shapley 的效果优于其他 Shapley 估算方法。

Jun, 2023

Beta Shapley：一种统一且降噪的机器学习数据价值框架

本文提出 Beta Shapley，它是 Data Shapley 的实质性泛化，其可作为数种流行的数据估值方法的统一形式，具有理想的统计性质，可用于估计与机器学习相关的模型性能。

Oct, 2021

分布式 Shapley 值的高效计算和分析

本文提出了分布式数据 Shapley 值（DShapley），该值是将 Shapley 值等博弈理论概念开发到了机器学习的统计框架，并可以应用于识别对学习算法有用或有害的数据点。本文通过导出线性回归，二元分类和非参数密度估计的 DShapley 的第一批分析表达式，提供了新的算法来快速估计 DShapley，这些公式直接解释并为不同数据类型提供量化的见解。

Jul, 2020

使用 Shapley 值对医疗成像数据进行估值：在大规模胸部 X 射线数据集上的应用

本研究使用数据 Shapley 方法评估了训练数据对大型胸部 X 射线数据集中肺炎检测算法性能的价值，发现具有高 Shapley 值的训练数据对于肺炎检测很重要，该方法可作为去除医学影像数据中的噪音的框架。

Oct, 2020

数据估值：机器学习的部分序数 Shapley 值

本文研究了抽象代数中通过群论定义偏序 Shapley 价值的概念及其在数据合作中的角色。提出了三种算法来近似计算该价值，其中包括基于经典 Shapley 价值算法的截断蒙特卡罗算法，以及基于同一类中数据点提供类似信息这一事实的蒙特卡罗和截断蒙特卡罗算法，以加快计算速度。

May, 2023

CHG Shapley: 高效的数据评估与选择，迈向可靠的机器学习

通过计算每个数据子集对模型准确性的效用近似值，在单个模型训练期间推导 CHG（Conduct of Hardness and Gradient）评分的 Shapley 值闭式表达式，我们在大规模数据集上将数据估值方法从多次模型重训练的形式改进为等效于单次模型重训练，极大地提高了计算效率。同时，我们还利用 CHG Shapley 进行实时数据选择，证明其在识别高价值和有噪声数据方面的有效性。CHG Shapley 通过高效的数据估值方法促进了可信的模型训练，为信任值机器学习引入了一种新的以数据为中心的视角。

Jun, 2024

最近邻算法高效任务特定数据价值评估

本文提出一种用 Shapley value 计算数据相对价值的方法，特别是在 KNN 算法中，能够以较低的速度准确计算数据相对价值。

Aug, 2019