数据 Shapley: 机器学习数据的公平估值
通过利用机器学习问题的结构性质,我们提出了一种更高效的近似数据 Shapley 值的方法,此方法在不同学习设置中包括随机梯度下降和凸、非凸损失函数中证明了其近似 Shapley 值的准确性收敛性。实验证明,这种方法在保持数据的近似价值和排名的同时,提高了近似速度最高可达 9.9 倍,并且在使用小的子集进行精确评估时,对预训练网络的效率更高。
Nov, 2023
本文提出了一种概率 Shapley 值(P-Shapley),通过构建一个基于概率分类器的类概率效用函数来量化每个数据点对概率分类器的边际贡献,并提供几种置信度校准的激活函数,从而实现评估数据重要性以构建高可用性和可信赖性 ML 模型的目的。
Jun, 2023
提出一个新的统计框架 —— 分布 Shapley,其定义了基于潜在数据分布的点的价值,解决了数据 Shapley 框架的限制,并使用该框架开发了一个新的算法,运行速度比计算(非分布式)数据 Shapley 值的最先进算法快两个数量级,对各种数据集进行了应用并证明了它在数据市场环境中的实用性。
Feb, 2020
本文提出了一种基于离散均匀分布的 Shapley 值近似估计方法,以更高效地进行数据集估价和数据共享,并通过多个数据集估价基准测试表明 DU-Shapley 的效果优于其他 Shapley 估算方法。
Jun, 2023
本文提出 Beta Shapley,它是 Data Shapley 的实质性泛化,其可作为数种流行的数据估值方法的统一形式,具有理想的统计性质,可用于估计与机器学习相关的模型性能。
Oct, 2021
本文提出了分布式数据 Shapley 值(DShapley),该值是将 Shapley 值等博弈理论概念开发到了机器学习的统计框架,并可以应用于识别对学习算法有用或有害的数据点。本文通过导出线性回归,二元分类和非参数密度估计的 DShapley 的第一批分析表达式,提供了新的算法来快速估计 DShapley,这些公式直接解释并为不同数据类型提供量化的见解。
Jul, 2020
本研究使用数据 Shapley 方法评估了训练数据对大型胸部 X 射线数据集中肺炎检测算法性能的价值,发现具有高 Shapley 值的训练数据对于肺炎检测很重要,该方法可作为去除医学影像数据中的噪音的框架。
Oct, 2020
本文研究了抽象代数中通过群论定义偏序 Shapley 价值的概念及其在数据合作中的角色。提出了三种算法来近似计算该价值,其中包括基于经典 Shapley 价值算法的截断蒙特卡罗算法,以及基于同一类中数据点提供类似信息这一事实的蒙特卡罗和截断蒙特卡罗算法,以加快计算速度。
May, 2023
通过计算每个数据子集对模型准确性的效用近似值,在单个模型训练期间推导 CHG(Conduct of Hardness and Gradient)评分的 Shapley 值闭式表达式,我们在大规模数据集上将数据估值方法从多次模型重训练的形式改进为等效于单次模型重训练,极大地提高了计算效率。同时,我们还利用 CHG Shapley 进行实时数据选择,证明其在识别高价值和有噪声数据方面的有效性。CHG Shapley 通过高效的数据估值方法促进了可信的模型训练,为信任值机器学习引入了一种新的以数据为中心的视角。
Jun, 2024