有益还是有害的数据？无需微调的 Shapley 属性归因用于解释语言模型预测

ICMLJun, 2024

有益还是有害的数据？无需微调的 Shapley 属性归因用于解释语言模型预测

Helpful or Harmful Data? Fine-tuning-free Shapley Attribution for Explaining Language Model Predictions

Jingtan Wang, Xiaoqiang Lin, Rui Qiao, Chuan-Sheng Foo, Bryan Kian Hsiang Low

TL;DR在这篇论文中，我们提出了一种针对实例归属的鲁棒性解释方法，通过引入 Shapley 值的高效逼近方法来提高实例归属和其他数据相关应用的性能，在大型语言模型上进行了广义的推广。

Abstract

The increasing complexity of foundational models underscores the necessity for explainability, particularly for fine-tuning, the most widely used training method for adapting models to downstream tasks.

explainability fine-tuning instance attribution robustness shapley value

发现论文，激发创造

L-Shapley 和 C-Shapley：用于结构化数据的高效模型解释

本研究探讨了实例级特征重要性评分作为模型解释方法，并提出两种线性复杂度的算法来评估图结构数据中的特征贡献，并与其他模型解释方法进行比较。

Aug, 2018

模型解释的多个 Shapley 值

本文探讨了 Shapley 值在归因问题中的多样实现方式及产生的问题，且提出了一种基于独特性原理的技术 Baseline Shapley（BShap），并将其与 Integrated Gradients 进行对比。

Aug, 2019

模型无关的交互式特征归因提高性能和样本效率

本文提供了两种流行的解释方法（Occlusion 和 Shapley 值）的模型无关实现，以无限制的交互方式实现不同的属性。利用已纠正的特征归属来生成额外的本地数据，通过在模拟和真实数据实验中展示我们提出的方法如何通过纠正的解释显著提高模型的性能。添加交互式解释以增加活动学习效率，显著优于现有的解释性交互策略。此外，本文探讨了领域专家如何提供足够正确的特征归属来改进模型。

Jun, 2023

解释博弈：使用 Shapley 值解释机器学习模型

本研究提出了一个新的机器学习模型解释框架 FAE（Formulate，Approximate，Explain）。该框架利用了 Shapley 值和博弈论方法进行解释，并提供了置信区间和对比解释来解释黑盒子模型在不同数据集上的结构。

Sep, 2019

使用转移的 Shapley 值对大语言模型进行微调的数据选择

提出了一种名为 TS-DShapley 的算法，通过一种高效的基于采样的方法和一种数据价值信息的传递方法，大大减少了 Shapley 基于数据评估的计算成本，可以对大型预训练语言模型进行微调，并在基准自然语言理解（NLU）数据集上提升了语言模型的性能。

Jun, 2023

基于 Shapley 值的模型解释的错误分析：一种信息性视角

本文分析了 Shapley 值归因的解释误差，将解释误差分解为观察偏差和结构偏差两个组成部分，并且证明它们之间存在权衡关系。基于此误差分析框架，提出了过多信息和过少信息解释这两个新概念，并对现有的 Shapley 值归因方法进行了可能的过多信息和过少信息的理论分析。

Apr, 2024

个体 Shapley 值解释的精确性

Shapley value explanations are less precise for observations on the outer region of the training data distribution, which has not been systematically addressed in the Shapley value literature.

Dec, 2023

数据流形上的 Shapley 可解释性

本研究旨在介绍 Shapley 可解释性的一个数学根据和模型独立的框架，但是通常的 Shapley 可解释性实现做了一个不切实际的假设，即模型的特征是不相关的，而作者这里提出了两种策略去解决这个问题，基于生成建模的方法提供灵活的数据归因，另一种直接学习了 Shapley 价值函数，提供了性能和稳定性，但缺陷是没有灵活性，通过我们的研究表明该假设会导致展示效果错误，隐藏敏感性属性的隐含模型依赖性和意义不明的高维数据。

Jun, 2020

可解释机器学习中 SHAP 评分的分布性不确定性

本文提出了一个基于不明实体群体分布的 SHAP 得分推理的原则性框架，并通过研究函数最大值和最小值的基本问题来确定所有特征的 SHAP 得分的紧密范围，最终通过实验显示我们的框架可以为更稳健的特征评分做出贡献。

Jan, 2024

Shapley 解释网络

本文提出使用 Shapley values 作为深度模型的潜在表示，使得 Shapley explanations 能够成为建模范式的第一等公民，从而实现了层次化解释、模型在训练期间的解释以及快速解释计算。作者证明了 ShapNets 确保 Shapley 值的缺失和准确性，并通过在合成和真实数据集上的演示展示了它的有效性。

Apr, 2021