设计可解释性：包装盒将神经性能与准确解释相结合

Nov, 2023

设计可解释性：包装盒将神经性能与准确解释相结合

Interpretable by Design: Wrapper Boxes Combine Neural Performance with Faithful Explanations

Yiheng Su, Juni Jessy Li, Matthew Lease

TL;DR用经典的，可解释的模型来生成对模型预测的基于实例的准确解释以保持预测性能的通用方法

Abstract

Can we preserve the accuracy of neural models while also providing faithful explanations? We present wrapper boxes, a general approach to generate faithful, example-based explanations for model predictions while

neural models faithful explanations wrapper boxes predictive performance interpretable model

发现论文，激发创造

可解释的、可探究的黑匣子模型近似

提出了 BETA 框架，通过透明的逼近来解释任何黑盒分类器的行为，允许用户交互式地探索用户感兴趣的不同子空间中黑盒模型的行为。实验评估表明，与现有基线相比，该方法可以生成高度紧凑，易于理解，但准确的各种预测模型的逼近。

Jul, 2017

Greybox XAI: 一种神经符号学习框架，用于生成可解释的图像分类预测

通过形式化说明解释是什么，提出一些公理和定义来澄清可解释的人工智能的数学角度。最后，我们提出了一个 Greybox XAI 框架，该框架通过使用符号知识库将 DNN 和透明模型组成。我们从数据集中提取知识库，并使用它来训练透明模型（即逻辑回归）。然后，我们在 RGB 图像上训练编码器 - 解码器架构，以产生类似于透明模型使用的知识库的输出。一旦两个模型独立地训练好后，它们就在组成的形式上用于形成可以解释的预测模型。我们展示了这种新的架构在几个数据集中是准确的和可以解释的。

Sep, 2022

可解释的深度学习：解释、可解释性、可信度及其他

本文综述了神经网络的解释工具和算法，提出了一种新的分类方法，介绍了解释结果的评估方法和信任度算法的应用，讨论了深度模型解释与鲁棒性和借鉴解释的联系，并介绍了一些开源库。

Mar, 2021

利用归因使神经网络可解释化：应用于隐式信号预测

本文提出了一种新型的可解释深度神经网络的解释，通过使用掩蔽权重，可以将隐藏特征分解成几个输入限制的子网络，并训练成专家混合的增强模型，为复杂的机器学习模型提供说明，提高其效率，并实现了对合理解释进行推荐任务。

Aug, 2020

通过模型提取方法解释黑匣子模型

为了解释黑盒模型，本文提出使用决策树对其进行全局解释，并采用新的决策树提取算法避免过拟合，评估表明该方法正确率更高且可解释性更强。

May, 2017

演化优化模块的可解释管道用于具可视输入的 RL 任务

本文探讨了提高人工智能的可解释性的需求，通过使用解释性（即玻璃盒）模型并使用演化算法来实现端到端管道的方式以在 Atari 基准测试的强化学习环境中得出可比较的结果。

Feb, 2022

可解释的人工智能：理解、可视化和解释深度学习模型

基于深度学习的解释性可视化方法在人工智能领域日益被重视，本文总结了目前解释深度学习模型的最新发展，并提出两种解释预测的方法，并将这些方法用于三个分类任务中进行评估。

Aug, 2017

可解释的神经符号视觉推理

本文讨论了为非技术用户产生解释的最有效和高效的解决方案，提出了一种基于连接主义和符号范式的推理模型来解释神经网络的决策，并用一个例子演示了它的潜在用途。

Sep, 2019

白盒神经网络概念框架

该研究介绍了语义特征作为一种完全可解释的神经网络层的概念框架，并提出了一个证明概念模型，解决了 MNIST 相关子问题，该模型由 4 个这样的层组成，具有 4.8K 个可学习参数，模型易于解释，在没有任何形式的对抗训练的情况下，实现了与人类级别的对抗测试准确性，需要很少的超参数调整，并且可以在单个 CPU 上快速训练，该技术具有通用性，有望实现对完全可推广的白盒神经网络的范式转变。

Mar, 2024

分段线性神经网络的精确一致解释：闭合形式解决方案

本文提出了一个名为 OpenBox 的方法，用于计算分段线性神经网络（PLNN）的确切且一致的解释，即将 PLNN 转换为一组数学上等价的线性分类器，然后通过支配其预测的特征来解释每个线性分类器。我们进一步将 OpenBox 应用于展示非负和稀疏约束对提高 PLNN 的可解释性的有效性，丰富的合成和实际数据集实验清楚地证明了我们解释的准确性和一致性。

Feb, 2018