高维数据的无模型 Shapley 值
我们提出了一种变量重要性度量,基于博弈论中的 Shapley 值,用于量化黑盒函数中各个输入变量的影响。我们的度量基于观察数据分组来计算,连接了可解释 AI 领域的变量重要性度量和全局敏感性分析的函数分解方法,并引入了一个平方 Shapley 值,可以将原来研究中的 Shapley 效应分解到不同的观测数据组之间。
Nov, 2019
通过计算每个数据子集对模型准确性的效用近似值,在单个模型训练期间推导 CHG(Conduct of Hardness and Gradient)评分的 Shapley 值闭式表达式,我们在大规模数据集上将数据估值方法从多次模型重训练的形式改进为等效于单次模型重训练,极大地提高了计算效率。同时,我们还利用 CHG Shapley 进行实时数据选择,证明其在识别高价值和有噪声数据方面的有效性。CHG Shapley 通过高效的数据估值方法促进了可信的模型训练,为信任值机器学习引入了一种新的以数据为中心的视角。
Jun, 2024
本研究探讨了实例级特征重要性评分作为模型解释方法,并提出两种线性复杂度的算法来评估图结构数据中的特征贡献,并与其他模型解释方法进行比较。
Aug, 2018
使用合作谢普利方法(Cohort Shapley)来验证黑盒预测算法的重要变量,并通过经济博弈理论来量化变量的重要性。该方法可以用于算法公平性问题,以确定受保护变量的重要性,并通过贝叶斯自助法估计 Shapley 值的不确定性。
May, 2022
本论文提出了一种基于多线性扩展技术的新采样方法来估计 Shapley 值,可用于任何机器学习模型,特别是多类分类或回归问题。通过对两个数据集的实验,我们证明了该方法通过减少采样统计变量的方差来提供更准确的 Shapley 值估计。
Oct, 2020
Shapley 值是一种广泛接受和可信赖的工具,用于解决深度神经网络等黑盒模型所带来的挑战。本研究分析了现有工作的一致性,并推断出随机估计器可以统一为特征子集重要性采样的线性变换。基于此,我们探讨设计简单的摊销估计器的可能性,并提出了一种简单高效的方法 ——SimSHAP,通过消除冗余技术。在表格和图像数据集上进行的大量实验证实了我们的 SimSHAP 的有效性,能够显著加速准确 Shapley 值的计算。
Nov, 2023
本文提出了一种基于 Shapley 种群变量重要性度量 (SPVIM) 的变量重要性估计器,通过仅对指定数量的特征子集进行随机采样来减少计算复杂度,并证明了其在渐进意义下收敛的最佳速率,可以建立有效的置信区间和假设检验。在模拟实验和真实数据集上均表现出好的性能。
Jun, 2020
用 Shapley 值来改进基于约束的因果结构学习算法,通过决定哪些变量对观察到的条件(独)立负责,证明其合理性和渐近一致性,并根据 CSL 的标准度量表现优于基于约束、基于搜索和基于功能因果模型的最先进方法。
Dec, 2023
本文介绍了 EmSHAP(基于能量模型的 Shapley 值估计),它可以有效地近似预测模型在任意特征子集上的 Shapley 贡献函数的期望值。通过引入门控循环单元(GRU)将输入特征映射到隐藏空间,以消除输入特征排序的影响,并提出了动态屏蔽方案来提高泛化能力。定理 1、2 和 3 证明了 EmSHAP 比 KernelSHAP 和 VAEAC 等现有方法具有更紧的误差界限,从而实现了更高的估计精度。最后,针对医学和工业领域的应用案例表明,所提出的基于 Shapley 值的可解释框架具有提高的估计精度而无需牺牲效率。
Apr, 2024
LLpowershap 是一种利用基于损失的 Shapley 值来识别信息特征的特征选择方法,与其他现有方法相比,它不仅能够识别更多的有信息特征,而且输出的噪声特征较少。在四个真实世界数据集上进行的基准测试结果显示,LLpowershap 的预测性能要么更高,要么与其他基于 Shapley 值的封装方法或过滤方法相当。
Jan, 2024