无标签的无监督模型可解释性

ICMLMar, 2022

Label-Free Explainability for Unsupervised Models

Jonathan Crabbé, Mihaela van der Schaar

TL;DR该文介绍了两种关键的后处理解释技术扩展：无标签特征重要性和无标签示例重要性，用于黑盒模型在推断时构造表示，并通过定性和定量比较展示了这种无标签可解释性模式的效用。

Abstract

unsupervised black-box models are challenging to interpret. Indeed, most existing explainability methods require labels to select which component(s) of the black-box's output to interpret. In the absence of label

unsupervised black-box models explainability methods label-free feature importance label-free example importance autoencoders

发现论文，激发创造

在潜在特征空间中通过学习图像示例实现黑匣子解释

通过在黑盒模型中采用对抗性自动编码器学习到的潜在特征空间，生成实例图像并学习决策树分类器的方法，从而对黑盒模型进行解释，并提供了更好的解释性能。

Jan, 2020

使用感知组件解释表示学习

通过使用三个关键的感知组件：颜色、形状和纹理，我们采用选择性的掩模来观察表示的变化，从而获得每个感知组件的独特重要性图，从而增强了表示空间的可解释性，提供与人类视觉感知共鸣的解释。

Jun, 2024

使用少量标签解开变异因素

针对学习解耦表示是表示学习中重要的问题，本文调查研究了少量监督如何影响现有的解耦学习方法，并进行了大规模实验，结果表明，即使标签不完全或不准确，使用少量的标记训练样本可以对现有的解耦学习模型进行模型选择，并证实引入监督可以有效地学习解耦表示。

May, 2019

在医疗记录中实现监督级可解释性的无监督方法

在这项研究中，我们提出了一种无需人工注释的方法来生成可信和忠实的解释。我们展示了对自动医学编码任务的对抗鲁棒性训练如何提高解释的可信度，并引入了一种比现有方法更好的新解释方法 AttInGrad。通过在完全无监督的设置中结合这两个贡献，我们生成了与有监督方法相当甚至更好的解释。我们发布了我们的代码和模型权重。

Jun, 2024

基于方向特征交互的黑盒模型解释

为了提高机器学习中黑盒模型的可解释性，本研究运用双变量解释的方法来分析特征的相互作用，并通过 Shapley 值解释验证了此方法的能力。实验结果表明，在 CIFAR10，IMDB，人口普查，离婚，药物和基因数据等方面，本方法优于现有解释方法。

Apr, 2023

通过有意义的扰动提供黑匣子的可解释性解释

该研究提出了一种适用于任何黑盒机器学习算法的通用解释框架，并将其特化以找到对分类器决策最负责的图像部分。该方法是模型无关且可测试的，因为它基于明确且可解释的图像扰动。

Apr, 2017

表征学习中视觉概念的可学习性和可描述性的量化

通过评估人类注释者作为分类器，本研究提出了视觉可学性和可描述性两个概念，用于量化任意图像分组（包括无监督分组）的可解释性，并提出了一种类别级别的字幕生成系统来自动生成对视觉分组的描述，并使用可描述性度量将其与人类注释者进行比较。

Oct, 2020

多类模型解释的加法逐实例方法

本论文提出了一种使用解释模型同时针对多个目标类别进行本地解释的框架，该模型具有更高的解释性和更紧凑的解释，通过广泛的实验验证了该模型具有选择稳定和重要特征的能力。

Jul, 2022

无标签遗忘：深度模型的无监督遗忘

提出无监督学习方法，使用变分方法近似剩余数据的表示分布，并通过对比损失实现与原始模型表示的匹配，以实现深层模型中的遗忘与预测性能保留。

Mar, 2024

走向无监督表示学习：学习、评估和传递视觉表示

无监督表示学习、卷积自组织神经网络、评估协议、表示传输、图像到图像转换

Nov, 2023