高维数据的无模型 Shapley 值

Nov, 2022

Model free Shapley values for high dimensional data

Naofumi Hama, Masayoshi Mase, Art B. Owen

TL;DR本文提出了一个称为集体 Shapley（CS）方法，具有指数成本，以及需要第二个黑匣子模型作为输入的受监督的流形 Shapley 方法。并且引入了一种名为 IGCS 的集成梯度版本的 cohort Shapley，通过某些曲线下面积度量证明其性能与 CS 几乎相同。

Abstract

A model-agnostic variable importance method can be used with arbitrary prediction functions. Here we present some model-free methods that do not require access to the prediction function. This is useful when that

model-agnostic variable importance cohort shapley supervised on-manifold shapley integrated gradient

发现论文，激发创造

Shapley 协同精炼解释黑盒决策

我们提出了一种变量重要性度量，基于博弈论中的 Shapley 值，用于量化黑盒函数中各个输入变量的影响。我们的度量基于观察数据分组来计算，连接了可解释 AI 领域的变量重要性度量和全局敏感性分析的函数分解方法，并引入了一个平方 Shapley 值，可以将原来研究中的 Shapley 效应分解到不同的观测数据组之间。

Nov, 2019

CHG Shapley: 高效的数据评估与选择，迈向可靠的机器学习

通过计算每个数据子集对模型准确性的效用近似值，在单个模型训练期间推导 CHG（Conduct of Hardness and Gradient）评分的 Shapley 值闭式表达式，我们在大规模数据集上将数据估值方法从多次模型重训练的形式改进为等效于单次模型重训练，极大地提高了计算效率。同时，我们还利用 CHG Shapley 进行实时数据选择，证明其在识别高价值和有噪声数据方面的有效性。CHG Shapley 通过高效的数据估值方法促进了可信的模型训练，为信任值机器学习引入了一种新的以数据为中心的视角。

Jun, 2024

L-Shapley 和 C-Shapley：用于结构化数据的高效模型解释

本研究探讨了实例级特征重要性评分作为模型解释方法，并提出两种线性复杂度的算法来评估图结构数据中的特征贡献，并与其他模型解释方法进行比较。

Aug, 2018

无法实现数据的变量重要性

使用合作谢普利方法（Cohort Shapley）来验证黑盒预测算法的重要变量，并通过经济博弈理论来量化变量的重要性。该方法可以用于算法公平性问题，以确定受保护变量的重要性，并通过贝叶斯自助法估计 Shapley 值的不确定性。

May, 2022

一个多线性采样算法用于估计 Shapley 值

本论文提出了一种基于多线性扩展技术的新采样方法来估计 Shapley 值，可用于任何机器学习模型，特别是多类分类或回归问题。通过对两个数据集的实验，我们证明了该方法通过减少采样统计变量的方差来提供更准确的 Shapley 值估计。

Oct, 2020

探索快速 Shapley 值估计的统一视角

Shapley 值是一种广泛接受和可信赖的工具，用于解决深度神经网络等黑盒模型所带来的挑战。本研究分析了现有工作的一致性，并推断出随机估计器可以统一为特征子集重要性采样的线性变换。基于此，我们探讨设计简单的摊销估计器的可能性，并提出了一种简单高效的方法 ——SimSHAP，通过消除冗余技术。在表格和图像数据集上进行的大量实验证实了我们的 SimSHAP 的有效性，能够显著加速准确 Shapley 值的计算。

Nov, 2023

使用 Shapley 值进行人口特征重要性的高效非参数统计推断

本文提出了一种基于 Shapley 种群变量重要性度量 (SPVIM) 的变量重要性估计器，通过仅对指定数量的特征子集进行随机采样来减少计算复杂度，并证明了其在渐进意义下收敛的最佳速率，可以建立有效的置信区间和假设检验。在模拟实验和真实数据集上均表现出好的性能。

Jun, 2020

Shapley-PC: 使用 Shapley 值进行基于约束的因果结构学习

用 Shapley 值来改进基于约束的因果结构学习算法，通过决定哪些变量对观察到的条件（独）立负责，证明其合理性和渐近一致性，并根据 CSL 的标准度量表现优于基于约束、基于搜索和基于功能因果模型的最先进方法。

Dec, 2023

基于能量模型的准确 Shapley 值估计用于解释性深度学习预测建模

本文介绍了 EmSHAP（基于能量模型的 Shapley 值估计），它可以有效地近似预测模型在任意特征子集上的 Shapley 贡献函数的期望值。通过引入门控循环单元（GRU）将输入特征映射到隐藏空间，以消除输入特征排序的影响，并提出了动态屏蔽方案来提高泛化能力。定理 1、2 和 3 证明了 EmSHAP 比 KernelSHAP 和 VAEAC 等现有方法具有更紧的误差界限，从而实现了更高的估计精度。最后，针对医学和工业领域的应用案例表明，所提出的基于 Shapley 值的可解释框架具有提高的估计精度而无需牺牲效率。

Apr, 2024

LLpowershap: 基于逻辑损失的自动 Shapley 值特征选择方法

LLpowershap 是一种利用基于损失的 Shapley 值来识别信息特征的特征选择方法，与其他现有方法相比，它不仅能够识别更多的有信息特征，而且输出的噪声特征较少。在四个真实世界数据集上进行的基准测试结果显示，LLpowershap 的预测性能要么更高，要么与其他基于 Shapley 值的封装方法或过滤方法相当。

Jan, 2024