正则化黑盒模型以提高可解释性

Feb, 2019

Regularizing Black-box Models for Improved Interpretability

Gregory Plumb, Maruan Al-Shedivat, Angel Alexander Cabrera, Adam Perer, Eric Xing...

TL;DRExpO 是一种可解释的混合方法，通过训练时对特定正则化器进行操作，改善了基于后处理的解释系统的缺陷，提高了其解释质量和可用性。

Abstract

Most of the work on interpretable machine learning has focused on designing either inherently interpretable models, which typically trade-off accuracy for interpretability, or post-hoc explanation systems, whose explanation quality can be unpredictable. Our method, ExpO, is a

interpretable machine learning hybridization explainability regularization model agnostic

发现论文，激发创造

正则化黑盒模型以提高可解释性（HILL 2019 版本）

本文提出了一种新的方法，即在训练时直接对黑盒模型进行可解释性正则化，以改善解释效果，提高模型的可解释性，并保持一定的准确性。

May, 2019

强健稳定的黑盒解释

通过敌对训练的方法，我们提出了一个生成稳健且高保真黑盒模型解释的新框架，尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题，本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释，实验发现我们的方法显著提高了解释的鲁棒性，而不会在原始数据分布上牺牲解释的保真度。

Nov, 2020

自解释神经网络的稳健可解释性研究

提出了自说明模型的三个特点 —— 显式性，忠诚度和稳定性，旨在落实模型可解释性并实现复杂模型的解释性，通过特定模型的正则化实现忠诚度和稳定性的要求，实验结果表明，该框架为解决模型的复杂性和可解释性困境提供了一个有前途的方向。

Jun, 2018

通过模型提取方法解释黑匣子模型

为了解释黑盒模型，本文提出使用决策树对其进行全局解释，并采用新的决策树提取算法避免过拟合，评估表明该方法正确率更高且可解释性更强。

May, 2017

解释性之路的通行需面对偏见：衡量解释的公平性

本文通过在金融、医疗保健、大学招生和美国司法系统等四个领域的实际数据中审计了不同保护子组的解释质量，发现不同子组的近似质量显着不同，而解释深度学习模型的近似质量差异存在着公平性挑战，需要进一步解决。

May, 2022

基于解释的训练与可微插入 / 删除方法感知正则化

通过优化深度神经网络的预测性能，我们提出了插入与删除度量感知的基于解释的优化方法（ID-ExpO），使得流行的后置解释器能够产生更忠实且易于理解的解释，同时保持高的预测准确性。

Oct, 2023

可解释的、可探究的黑匣子模型近似

提出了 BETA 框架，通过透明的逼近来解释任何黑盒分类器的行为，允许用户交互式地探索用户感兴趣的不同子空间中黑盒模型的行为。实验评估表明，与现有基线相比，该方法可以生成高度紧凑，易于理解，但准确的各种预测模型的逼近。

Jul, 2017

线性模型的最优解释

提出了一种基于最优化的规则，将线性模型分解为不断增加复杂性的一系列模型，从而为线性模型创建解释，并派生出线性模型的参数化互操作性指标族，研究了解释性和预测准确性之间的权衡。

Jul, 2019

可靠的事后解释：解释性中的不确定性建模

本文提出了基于贝叶斯框架的黑盒模型解释方法，能够生成可靠的局部解释和其关联的不确定性，并且具有稳定性和高度一致性，可以快速地解决几个重要问题。通过实证研究，证明了该方法的有效性，并提高了解释的可靠性。

Aug, 2020

模型提取实现可解释性

这篇论文提出一种名为模型抽取的方法，通过构建一个可解释程度更高的模型来近似黑箱模型，从而理解和调试机器学习模型在各种数据集上训练的结果，并在经典强化学习问题中学习控制策略。

Jun, 2017