基于样本的通用表示器的解释

Oct, 2023

Sample based Explanations via Generalized Representers

Che-Ping Tsai, Chih-Kuan Yeh, Pradeep Ravikumar

TL;DR我们提出了一种称为广义代表器的基于样本的机器学习模型解释的通用类，其测量训练样本对模型测试预测的影响，使用两个组件：度量训练点对模型的重要性并对测试样本不变的全局样本重要性，以及使用核函数来衡量训练样本和测试点的相似性的本地样本重要性。本文的一个重要贡献是展示广义代表器是唯一满足一组自然公理属性的基于样本的解释类。我们讨论了在给定核函数的情况下提取全局重要性的方法，以及在现代非线性模型中的自然核函数选择。正如我们展示的，许多流行的现有样本解释可以被视为使用特定核函数和提取全局重要性方法的广义代表器。此外，我们对两个图像分类数据集和两个文本分类数据集上的不同广义代表器进行了实证比较。

Abstract

We propose a general class of sample based explanations of machine learning models, which we term generalized representers. To measure the effect of a training sample on a model's test prediction, →

generalized representers sample based explanations global importances kernels empirical comparisons

发现论文，激发创造

规范化高维模型的表示点选择

本研究提出了一种名为高维表现者的新型基于样本的解释方法，可用于解释正则化高维模型的预测结果；同时也进一步研究了低秩模型在协作过滤中的应用，并对三个二分类数据集和两个推荐系统数据集的实证表现进行了研究。

May, 2023

TREX：基于树集成的描绘点解释

本文介绍了一种基于 REPresenter Point 框架的解释系统 TREX，它通过构建与特定树集成结构相对应的核来定义全局或局部的重要性，该系统的代理模型准确地近似了树集成，其重要性权重在数据集调试方面比以前的最新技术更加有效。

Sep, 2020

传统机器学习模型解释方法比较第一部分：目前方法概述及其不一致性量化

这篇论文探讨了机器学习模型的可解释性和可解释性，特别是关于本地和全局可解释性以及特征重要性和相关性的方法，并提供了一个完整的 Python 软件包来允许未来的研究人员探索这些产品；根据对严重天气预测和亚冰点路面温度预测的 ML 模型开发的研究，发现有关特征排名和特征效果的解释方法之间存在显着不一致，并提供建议来处理这些分歧；最后，建议在未来的研究中使用 tree interpreter 方法来探究特征效果。

Nov, 2022

基于自然图像统计的采样改进了本地代理解释器

本文提出了对生成解释性数据的 surrogate explainers 的限制进行修正的方法，基于深度神经网络中的解释性模型，通过使用感知度量并将采样的局部邻域与原始培训数据分布对齐，训练一个局部可解释的模型，以了解模型是如何得出特定预测结果的。

Aug, 2022

深度神经网络解释中的表征点选择

该研究提出了一种使用 representer points 解释深度神经网络预测的方法，通过训练集中的线性组合得出预测结果并理解网络的学习参数，这种方法的扩展性更高，具有更多的见解。

Nov, 2018

针对信用风险评分的全球性解释

本文提出了一种方法，通过对黑匣子分类器的决策函数进行抽样来学习可解释的替代模型，从而获得全局解释。该方法提供了一种统一解决方案，以简单的分类器逼近非线性决策边界，同时保持原来的分类准确性。我们使用私人住宅抵押违约数据集作为示例，说明了这种方法确保预处理期间属性的可分解性的可行性。

Nov, 2018

机器学习预测的局部和全局可解释度度量

本文提供了一种新颖的量化指标框架，用于解释分类器和回归模型的预测结果，旨在提高人工智能系统的透明度和可信度。应用公开数据集，展示了这些指标如何更全面地理解模型预测，并在决策者和利益相关者之间促进更好的沟通，从而增加人工智能系统的整体透明度和问责度。

Feb, 2023

同一领域内的视觉表示学习无法进行强泛化

通过对 17 种无监督，弱监督和完全监督的表征学习方法进行测试，本文观察到这些模型对于简单数据集中存在的发生因素都无法正确学习机制，且随着测试数据集的现实性增强，它们的泛化能力显著下降。

Jul, 2021

树状可解释人工智能：从局部解释到全局理解

通过运用博弈论、局部特征交互作用效应和全局模型结构，我们实现了对基于树的机器学习模型的高可解释性，应用于三个医疗机器学习问题，在透露模型全局结构的同时保持其基本特征，识别出美国人口中高强度但低频率的非线性死亡风险因素，突显具有共同危险特征的明显人口亚组，识别出慢性肾脏疾病危险因素之间的非线性交互作用效应，并监测在医院部署的机器学习模型（Identifying factors leading to model's performance decay over time）

May, 2019

渐进式夸张解释

本文提出了一种基于类的语义扩张的方法，该方法可以解释分类黑盒模型的结果，是模型无关的，并且只需要输出值和预测器相对于其输入的梯度。

Nov, 2019