Beta Shapley:一种统一且降噪的机器学习数据价值框架
通过利用机器学习问题的结构性质,我们提出了一种更高效的近似数据 Shapley 值的方法,此方法在不同学习设置中包括随机梯度下降和凸、非凸损失函数中证明了其近似 Shapley 值的准确性收敛性。实验证明,这种方法在保持数据的近似价值和排名的同时,提高了近似速度最高可达 9.9 倍,并且在使用小的子集进行精确评估时,对预训练网络的效率更高。
Nov, 2023
本研究提出一种考虑数据公正价值的方法,通过估算数据 Shapley 值来解决在监督学习中评估数据价值的困难,并且发现该方法优于其他流行的评估方法,可以有效提高预测器的性能。
Apr, 2019
提出一个新的统计框架 —— 分布 Shapley,其定义了基于潜在数据分布的点的价值,解决了数据 Shapley 框架的限制,并使用该框架开发了一个新的算法,运行速度比计算(非分布式)数据 Shapley 值的最先进算法快两个数量级,对各种数据集进行了应用并证明了它在数据市场环境中的实用性。
Feb, 2020
本文提出了分布式数据 Shapley 值(DShapley),该值是将 Shapley 值等博弈理论概念开发到了机器学习的统计框架,并可以应用于识别对学习算法有用或有害的数据点。本文通过导出线性回归,二元分类和非参数密度估计的 DShapley 的第一批分析表达式,提供了新的算法来快速估计 DShapley,这些公式直接解释并为不同数据类型提供量化的见解。
Jul, 2020
本文提出了一种概率 Shapley 值(P-Shapley),通过构建一个基于概率分类器的类概率效用函数来量化每个数据点对概率分类器的边际贡献,并提供几种置信度校准的激活函数,从而实现评估数据重要性以构建高可用性和可信赖性 ML 模型的目的。
Jun, 2023
本文提出了一种基于离散均匀分布的 Shapley 值近似估计方法,以更高效地进行数据集估价和数据共享,并通过多个数据集估价基准测试表明 DU-Shapley 的效果优于其他 Shapley 估算方法。
Jun, 2023
本文介绍了合作博弈理论的基本概念以及 Shapley value 的公理性质,概述了其在机器学习中的最重要应用:特征选择,可解释性,多智能体强化学习,集成修剪和数据估价,指出了 Shapley value 的主要局限性和未来研究方向。
Feb, 2022
本文研究了抽象代数中通过群论定义偏序 Shapley 价值的概念及其在数据合作中的角色。提出了三种算法来近似计算该价值,其中包括基于经典 Shapley 价值算法的截断蒙特卡罗算法,以及基于同一类中数据点提供类似信息这一事实的蒙特卡罗和截断蒙特卡罗算法,以加快计算速度。
May, 2023
该研究提出一种计算在聚合的数据矩阵中删除片段的对立假设的方法,并进一步提出了二维 Shapley,这是一种理论框架,旨在评估碎片化的数据源,其在碎片化数据上满足某些有吸引力的公理。 2D-Shapley 赋予了一系列新的用例,例如选择有用的数据片段,提供逐个样本的数据值的解释以及精细的数据问题诊断。
Jun, 2023
通过引入一种假设检验框架并证明在没有对效用函数施加特定约束的情况下,Data Shapley 的性能不能比随机选择更好,我们深入研究了 Data Shapley 的性能差异。我们确定了一类效用函数,即单调转换模块化函数,在其中 Data Shapley 可以最优地选择数据,基于此,我们提出了一种启发式方法用于预测 Data Shapley 在数据选择任务中的有效性。我们的实验验证了这些发现,并进一步揭示了 Data Shapley 成功与否的一些新的洞察。
May, 2024