无需获取模型的本地模型解释和不确定性

Jan, 2023

无需获取模型的本地模型解释和不确定性

Local Model Explanations and Uncertainty Without Model Access

Surin Ahn, Justin Grana, Yafet Tamene, Kristian Holsheimer

TL;DR我们提出了一个针对机器学习模型的模型无关算法，用于在仅可得到模型的输入输出样本而非对模型本身直接访问时生成事后解释和不确定性区间。

Abstract

We present a model-agnostic algorithm for generating post-hoc explanations and uncertainty intervals for a machine learning model when only a sample of inputs and outputs from the model is available, rather than

machine learning explanation uncertainty local polynomial regression bootstrapping

发现论文，激发创造

可靠的事后解释：解释性中的不确定性建模

本文提出了基于贝叶斯框架的黑盒模型解释方法，能够生成可靠的局部解释和其关联的不确定性，并且具有稳定性和高度一致性，可以快速地解决几个重要问题。通过实证研究，证明了该方法的有效性，并提高了解释的可靠性。

Aug, 2020

实时改善不确定性估计的几何方法

我们提出了一种基于几何的方法来估计不确定性，它可通过后处理模型校准来实现，避免了重新训练和更改模型，经多个数据集和模型的详细评估显示出更好的不确定性估计，并且可在接近实时应用中使用。

Jun, 2022

通过非参数自举法使用可解释的不确定性估计来监测模型恶化

研究如何利用非参数自助法和 SHAP 值提供可解释的不确定性估计，在部署环境中监测机器学习模型的退化，以及在缺乏目标标签时确定模型退化的来源，该方法在与当前最先进的方法相比展现了更好的性能。

Jan, 2022

推断时间采样量化预测不确定性

通过后处理的抽样策略估计数据不确定性，该方法可用于任何前馈确定性网络，能生成多样化的预测分布，并与预测误差有着良好的相关性。

Aug, 2023

保证解释的区域

我们提出了一种基于锚点的算法，用于确定那些可以保证局部解释正确性的区域，通过明确描述输入特征可信赖的区间来生成可解释的特征对齐框，保证局部代理模型的预测与预测模型相匹配；我们展示了相比现有基线方法，我们的算法能够找到更大的保证区域的解释，更好地涵盖数据流形，并展示了我们的方法如何识别具有较差保证区域的误导性局部解释。

Feb, 2024

思维周期：通过稳定解释衡量 LLM 的信心

通过使用解释蕴涵作为分类器可能性，我们提出了一种框架来测量语言模型不确定性，以改善置信度指标 (AURC 和 AUROC)。

Jun, 2024

获取线索：解释不确定性估计的方法

提出了一种新方法，Counterfactual Latent Uncertainty Explanations（CLUE），它能够解释可微分概率模型（如贝叶斯神经网络）的不确定性估计，并能够使从业者更好地理解哪些输入模式会导致预测不确定性。

Jun, 2020

概念解释估计应该具备不确定性意识

用可理解的人类概念来解释模型的全局解释的不稳定性问题以及提出了一种基于不确定性的贝叶斯估计方法，可以提高概念解释的可靠性。

Dec, 2023

强健稳定的黑盒解释

通过敌对训练的方法，我们提出了一个生成稳健且高保真黑盒模型解释的新框架，尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题，本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释，实验发现我们的方法显著提高了解释的鲁棒性，而不会在原始数据分布上牺牲解释的保真度。

Nov, 2020

BELLA：基于本地线性近似的黑盒模型解释

该研究介绍了 BELLA，一种模型无关的后置方法，用于解释回归黑盒模型的个体预测，其以特征空间中的线性模型形式提供解释，并最大化线性模型适用的邻域大小，因此其解释准确，简单，一般且稳健。

May, 2023