本文提出了基于贝叶斯框架的黑盒模型解释方法,能够生成可靠的局部解释和其关联的不确定性,并且具有稳定性和高度一致性,可以快速地解决几个重要问题。通过实证研究,证明了该方法的有效性,并提高了解释的可靠性。
Aug, 2020
我们提出了一种基于几何的方法来估计不确定性,它可通过后处理模型校准来实现,避免了重新训练和更改模型,经多个数据集和模型的详细评估显示出更好的不确定性估计,并且可在接近实时应用中使用。
Jun, 2022
研究如何利用非参数自助法和 SHAP 值提供可解释的不确定性估计,在部署环境中监测机器学习模型的退化,以及在缺乏目标标签时确定模型退化的来源,该方法在与当前最先进的方法相比展现了更好的性能。
Jan, 2022
通过后处理的抽样策略估计数据不确定性,该方法可用于任何前馈确定性网络,能生成多样化的预测分布,并与预测误差有着良好的相关性。
Aug, 2023
我们提出了一种基于锚点的算法,用于确定那些可以保证局部解释正确性的区域,通过明确描述输入特征可信赖的区间来生成可解释的特征对齐框,保证局部代理模型的预测与预测模型相匹配;我们展示了相比现有基线方法,我们的算法能够找到更大的保证区域的解释,更好地涵盖数据流形,并展示了我们的方法如何识别具有较差保证区域的误导性局部解释。
Feb, 2024
通过使用解释蕴涵作为分类器可能性,我们提出了一种框架来测量语言模型不确定性,以改善置信度指标 (AURC 和 AUROC)。
Jun, 2024
提出了一种新方法,Counterfactual Latent Uncertainty Explanations(CLUE),它能够解释可微分概率模型(如贝叶斯神经网络)的不确定性估计,并能够使从业者更好地理解哪些输入模式会导致预测不确定性。
Jun, 2020
用可理解的人类概念来解释模型的全局解释的不稳定性问题以及提出了一种基于不确定性的贝叶斯估计方法,可以提高概念解释的可靠性。
Dec, 2023
通过敌对训练的方法,我们提出了一个生成稳健且高保真黑盒模型解释的新框架,尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题,本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释,实验发现我们的方法显著提高了解释的鲁棒性,而不会在原始数据分布上牺牲解释的保真度。
Nov, 2020
该研究介绍了 BELLA,一种模型无关的后置方法,用于解释回归黑盒模型的个体预测,其以特征空间中的线性模型形式提供解释,并最大化线性模型适用的邻域大小,因此其解释准确,简单,一般且稳健。
May, 2023