可解释性作为统计推论

ICLRDec, 2022

Explainability as statistical inference

Hugo Henri Joseph Senetaire, Damien Garreau, Jes Frellsen, Pierre-Alexandre Mattei

TL;DR通过统计推断方法构建了一种概率模型，通过学习模型参数和使用神经网络选择器来实现解释性预测，并利用新数据集进行了实验验证，证明了使用多重插补提供了更合理的解释。

Abstract

A wide variety of model explanation approaches have been proposed in recent years, all guided by very different rationales and heuristics. In this paper, we take a new route and cast interpretability as a

model explanation interpretability statistical inference probabilistic model neural network

发现论文，激发创造

可解释模型的概率式数据集重建

解释性是可信任机器学习的一个关键要求，因为通过学习和发布一些内在可解释的模型可以泄露有关底层训练数据的信息，而这可能直接与隐私冲突。本文提出了一个新的框架，用于处理其他形式的可解释模型和更普遍的知识，并证明在对可解释模型结构做出现实的假设的情况下，可以有效地计算重建的不确定性。最后，我们通过比较精确学习算法和启发式学习算法关联的理论信息泄漏，说明了我们方法的适用性，使用决策树和规则列表。我们的结果表明，对于给定的准确性水平，最优解释性模型通常更紧凑，泄露的关于训练数据的信息更少。

Aug, 2023

可解释性的代价

本文提出一个基于数学框架的方法，构建以逐步可解释的模型。我们演示了应用于实际和合成数据集的实用算法，并定量化了 “可解释性” 的 “价格” 与预测准确性的权衡。

Jul, 2019

模型提取实现可解释性

这篇论文提出一种名为模型抽取的方法，通过构建一个可解释程度更高的模型来近似黑箱模型，从而理解和调试机器学习模型在各种数据集上训练的结果，并在经典强化学习问题中学习控制策略。

Jun, 2017

机器学习的模型无关可解释性

机器学习中的可解释性问题已经成为一个重要的关注点，本文提出使用模型无关的方法解释机器学习预测，这种方法可以提供选择模型、解释和表示的灵活性，同时改善了调试、比较和用户接口等问题，同时回顾了最近引入的模型无关的解释方法 LIME 及其面临的主要挑战。

Jun, 2016

线性模型的最优解释

提出了一种基于最优化的规则，将线性模型分解为不断增加复杂性的一系列模型，从而为线性模型创建解释，并派生出线性模型的参数化互操作性指标族，研究了解释性和预测准确性之间的权衡。

Jul, 2019

利用归因使神经网络可解释化：应用于隐式信号预测

本文提出了一种新型的可解释深度神经网络的解释，通过使用掩蔽权重，可以将隐藏特征分解成几个输入限制的子网络，并训练成专家混合的增强模型，为复杂的机器学习模型提供说明，提高其效率，并实现了对合理解释进行推荐任务。

Aug, 2020

可解释的深度学习：解释、可解释性、可信度及其他

本文综述了神经网络的解释工具和算法，提出了一种新的分类方法，介绍了解释结果的评估方法和信任度算法的应用，讨论了深度模型解释与鲁棒性和借鉴解释的联系，并介绍了一些开源库。

Mar, 2021

我们学会解释了吗？：可解释性方法如何在解释中学会编码预测

介绍了一种名为 REAL-X 的时间差异化的解释方法，通过这种方法可以学习一个预测模型来近似任何输入子集的真实数据生成分布。

Mar, 2021

自解释神经网络的稳健可解释性研究

提出了自说明模型的三个特点 —— 显式性，忠诚度和稳定性，旨在落实模型可解释性并实现复杂模型的解释性，通过特定模型的正则化实现忠诚度和稳定性的要求，实验结果表明，该框架为解决模型的复杂性和可解释性困境提供了一个有前途的方向。

Jun, 2018

模型解释性的神话

本文探讨了监督机器学习模型的解释能力，发现解释能力的动机与方法存在多样性和不一致性，因此提出了透明度与后期解释等多种方法，并怀疑线性模型易于解释而深度神经网络不易解释这一流行观点。

Jun, 2016