L-Shapley 和 C-Shapley:用于结构化数据的高效模型解释
采用博弈论方法计算机器学习模型特征重要性的数学问题存在和 Shapley 值并不能很好地解释人类可解释目标的论证以及需要因果推理等技术增加复杂性。
Feb, 2020
LLpowershap 是一种利用基于损失的 Shapley 值来识别信息特征的特征选择方法,与其他现有方法相比,它不仅能够识别更多的有信息特征,而且输出的噪声特征较少。在四个真实世界数据集上进行的基准测试结果显示,LLpowershap 的预测性能要么更高,要么与其他基于 Shapley 值的封装方法或过滤方法相当。
Jan, 2024
本文提出了分布式数据 Shapley 值(DShapley),该值是将 Shapley 值等博弈理论概念开发到了机器学习的统计框架,并可以应用于识别对学习算法有用或有害的数据点。本文通过导出线性回归,二元分类和非参数密度估计的 DShapley 的第一批分析表达式,提供了新的算法来快速估计 DShapley,这些公式直接解释并为不同数据类型提供量化的见解。
Jul, 2020
本文探讨了 Shapley 值在贝叶斯网络框架下的应用,分析了 Shapley 值与条件独立性的关系,并发现高 Shapley 值的变量不一定对模型预测性能有显著影响,而低 Shapley 值的变量可能会导致较差的预测结果。因此,在一般情况下,使用 Shapley 值进行特征选择并不一定能建立起最简单和预测性最优的模型,而且 Shapley 值不反映变量与目标之间的因果关系。
Aug, 2020
本文提出了一种基于 Shapley 种群变量重要性度量 (SPVIM) 的变量重要性估计器,通过仅对指定数量的特征子集进行随机采样来减少计算复杂度,并证明了其在渐进意义下收敛的最佳速率,可以建立有效的置信区间和假设检验。在模拟实验和真实数据集上均表现出好的性能。
Jun, 2020
本文提出了一种替代 Shapley Value 功能归属的方法,名为 Shapley Sets,通过递归函数分解算法将基础模型分解为非可分离变量组,非常适用于具有复杂依赖结构的数据类型,并与 Shapley Value 具有相同的公平公理。
Jul, 2023
Shapley 值是一种广泛接受和可信赖的工具,用于解决深度神经网络等黑盒模型所带来的挑战。本研究分析了现有工作的一致性,并推断出随机估计器可以统一为特征子集重要性采样的线性变换。基于此,我们探讨设计简单的摊销估计器的可能性,并提出了一种简单高效的方法 ——SimSHAP,通过消除冗余技术。在表格和图像数据集上进行的大量实验证实了我们的 SimSHAP 的有效性,能够显著加速准确 Shapley 值的计算。
Nov, 2023
本论文提出了一种基于多线性扩展技术的新采样方法来估计 Shapley 值,可用于任何机器学习模型,特别是多类分类或回归问题。通过对两个数据集的实验,我们证明了该方法通过减少采样统计变量的方差来提供更准确的 Shapley 值估计。
Oct, 2020
我们提出了一种变量重要性度量,基于博弈论中的 Shapley 值,用于量化黑盒函数中各个输入变量的影响。我们的度量基于观察数据分组来计算,连接了可解释 AI 领域的变量重要性度量和全局敏感性分析的函数分解方法,并引入了一个平方 Shapley 值,可以将原来研究中的 Shapley 效应分解到不同的观测数据组之间。
Nov, 2019