数据价值评估的分布式框架
本文提出了分布式数据 Shapley 值(DShapley),该值是将 Shapley 值等博弈理论概念开发到了机器学习的统计框架,并可以应用于识别对学习算法有用或有害的数据点。本文通过导出线性回归,二元分类和非参数密度估计的 DShapley 的第一批分析表达式,提供了新的算法来快速估计 DShapley,这些公式直接解释并为不同数据类型提供量化的见解。
Jul, 2020
本研究提出一种考虑数据公正价值的方法,通过估算数据 Shapley 值来解决在监督学习中评估数据价值的困难,并且发现该方法优于其他流行的评估方法,可以有效提高预测器的性能。
Apr, 2019
本文提出了一种基于离散均匀分布的 Shapley 值近似估计方法,以更高效地进行数据集估价和数据共享,并通过多个数据集估价基准测试表明 DU-Shapley 的效果优于其他 Shapley 估算方法。
Jun, 2023
本文提出了一种概率 Shapley 值(P-Shapley),通过构建一个基于概率分类器的类概率效用函数来量化每个数据点对概率分类器的边际贡献,并提供几种置信度校准的激活函数,从而实现评估数据重要性以构建高可用性和可信赖性 ML 模型的目的。
Jun, 2023
通过利用机器学习问题的结构性质,我们提出了一种更高效的近似数据 Shapley 值的方法,此方法在不同学习设置中包括随机梯度下降和凸、非凸损失函数中证明了其近似 Shapley 值的准确性收敛性。实验证明,这种方法在保持数据的近似价值和排名的同时,提高了近似速度最高可达 9.9 倍,并且在使用小的子集进行精确评估时,对预训练网络的效率更高。
Nov, 2023
该研究提出一种计算在聚合的数据矩阵中删除片段的对立假设的方法,并进一步提出了二维 Shapley,这是一种理论框架,旨在评估碎片化的数据源,其在碎片化数据上满足某些有吸引力的公理。 2D-Shapley 赋予了一系列新的用例,例如选择有用的数据片段,提供逐个样本的数据值的解释以及精细的数据问题诊断。
Jun, 2023
本文提出 Beta Shapley,它是 Data Shapley 的实质性泛化,其可作为数种流行的数据估值方法的统一形式,具有理想的统计性质,可用于估计与机器学习相关的模型性能。
Oct, 2021
数据评估在近年来引起了越来越多的关注,鉴于高质量数据在各种应用中的重要作用,特别是在机器学习任务中。本文探讨了全局和局部价值分布的特征,提出了一种基于所探测到的分布特征的新的数据评估方法,并提出了一种解决动态数据评估问题的新路径,通过制定一个整合全局和局部价值分布信息的优化问题。广泛的实验表明了我们提出方法的有效性和高效性,验证了全局和局部价值分布在数据评估中的重要潜力。
May, 2024
本文研究了抽象代数中通过群论定义偏序 Shapley 价值的概念及其在数据合作中的角色。提出了三种算法来近似计算该价值,其中包括基于经典 Shapley 价值算法的截断蒙特卡罗算法,以及基于同一类中数据点提供类似信息这一事实的蒙特卡罗和截断蒙特卡罗算法,以加快计算速度。
May, 2023
本文介绍了合作博弈理论的基本概念以及 Shapley value 的公理性质,概述了其在机器学习中的最重要应用:特征选择,可解释性,多智能体强化学习,集成修剪和数据估价,指出了 Shapley value 的主要局限性和未来研究方向。
Feb, 2022