黑盒异常归因

May, 2023

Black-Box Anomaly Attribution

Tsuyoshi Idé, Naoki Abe

TL;DR介绍了一种基于可能性补偿的异常归属框架，用于黑匣子机器学习模型下对异常进行归属。通过对比现有的模型无关解释方法的局限性，利用独立梯度家族函数来辨别异常，证明了该方法的实用性和有效性。

Abstract

When the prediction of a black-box machine learning model deviates from the true observation, what can be said about the reason behind that deviation? This is a fundamental and ubiquitous question that the end user in a business or industrial AI application often asks. The deviation may be due to a sub-optimal →

anomaly attribution likelihood compensation black-box model explanation methods integrated gradient family

发现论文，激发创造

具有可能性补偿的异常归因

该论文提出了一种基于统计逆问题的方法，使用 “可能性补偿（LC）” 计算每个输入变量的纠正值作为异常输出的责任得分，这是首个计算实值异常模型偏差责任得分的原则性框架，并在实际建筑能源预测任务中证实其实用性，得到了专家反馈的支持。

Aug, 2022

概率黑盒异常归因的生成扰动分析

我们提出了一个概率异常归因框架，可以在黑盒回归情况下计算每个输入变量的归因得分的概率分布，从而解释与黑盒模型的异常偏差。我们展示了主流的模型无关解释方法在这个任务中不适用，并提出了一个新的框架，可以计算归因得分的预测均值和量化不确定性。我们介绍了一种变分贝叶斯算法，用于推导每个变量归因得分的分布。据我们所知，这是第一个不受偏差影响的概率异常归因框架。

Aug, 2023

神经网络特征评估中的不一致问题探究

近年来，神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而，理解这些黑盒模型的内部机制仍具挑战性，但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外，通过全面的模拟研究，我们展示了常见缩放和编码技术对解释质量的影响，评估它们在不同效应大小中的功效，并展示了基于排序的评估指标的不一致性的来源。

Apr, 2024

基于散乱数据逼近的观测特定解释

本研究介绍了观测特定解释的定义，通过为每个数据点分配与其在预测过程中的重要性成比例的分数。这种解释涉及对感兴趣的黑匣子模型中最具影响力的观测的识别。通过利用正交匹配追踪算法构建散乱数据逼近的代理模型来估计这些解释的建议方法。该方法在模拟和真实世界数据集上得到验证。

Apr, 2024

关于本地特征归因基线的研究

研究表明，模型的 baseline 对于特征归因的重要性具有重大影响，因此建议针对表格数据提出合理的 baseline 方法，并介绍了新的基线方法分类方法。

Jan, 2021

你看到的就是你分类的：黑盒归因

在黑盒神经网络的基础上，通过训练第二个网络来预测对预备的黑盒分类器的贡献，并将这些贡献以只显示与分类器相关部分的蒙版的形式提供，我们的方法可以直接在单个前向传递中生成非常明显的类特定蒙版。

May, 2022

模型归因的鲁棒性再思考

机器学习模型的可靠性和可信度要求其决策具有可解释性，尤其在安全关键应用中，模型预测和解释（作为特征归因）对微小且不可察觉的输入扰动要具有鲁棒性。最近的研究表明许多归因方法是脆弱的，并提出了改进这些方法或模型训练的方法。我们观察到脆弱归因的两个主要原因：首先，现有的鲁棒性度量指标（例如，top-k 交集）对于合理的本地归因偏移进行了过度惩罚，因此使得随机扰动呈现出强攻击的效果；其次，即使图像中存在多个重要部分，归因可以集中在一个小区域中。为了纠正这一点，我们提出了一些简单的方法来加强现有的度量指标和归因方法，这些方法将像素的局部性纳入鲁棒性度量指标中，并将像素位置的多样性纳入归因中。关于模型训练在归因鲁棒性中的作用，我们经验证实对抗性训练的模型在较小的数据集上具有更鲁棒的归因，然而，在较大的数据集中，这种优势消失了。代码可在此 https URL 获得。

Dec, 2023

分类模型中预测不确定性的归因

本文提出一种新的框架，将路径积分、反事实解释和生成模型相结合，以获得包含少量可观察到的人工构件或噪声的归因，并通过对各种复杂度的数据集的流行基准测试进行定量评估，证明这一方法优于现有的替代方法。

Jul, 2021

黑盒环境下类梯度解释：当黑盒解释变得如白盒一样好

本文介绍了一种以黑盒为基础的梯度估计解释方法，称为 GEEX，通过分析梯度来揭示数据驱动方法（如深度学习模型）中做出决策的最重要特征，并将其与路径方法相结合，得到了用于图像数据的 iGEEX 方法，证明了该方法在黑盒场景中优于现有方法，并有着与完全访问的方法相媲美的性能。

Aug, 2023

通过有意义的扰动提供黑匣子的可解释性解释

该研究提出了一种适用于任何黑盒机器学习算法的通用解释框架，并将其特化以找到对分类器决策最负责的图像部分。该方法是模型无关且可测试的，因为它基于明确且可解释的图像扰动。

Apr, 2017