一种正式的可解释性方法

Jan, 2020

A Formal Approach to Explainability

Lior Wolf, Tomer Galanti, Tamir Hazan

TL;DR本论文研究了解释生成函数和学习模型的中间表示之间的联系，发现如果一个给定层的激活与解释一致，则所有后续层也一致，并研究了交集和并集作为构建新解释的一种方法。

Abstract

We regard explanations as a blending of the input sample and the model's output and offer a few definitions that capture various desired properties of the function that generates these explanations. We study the

explanations model output learned models activations intersection and union

发现论文，激发创造

解释能否解释？模型最懂

提出了一种通过神经网络模型本身来评估特征归因方法的框架，使用神经网络生成关键特征来评估各种归因方法的一致性和局限性。

Mar, 2022

机器学习中基于逻辑的可解释性

本文概述了现有关于计算机生成机器学习模型正式解释的研究，旨在与之前基于非正式解释的方案进行比较，并讨论了各种问题，包括基于不同机器学习模型的最佳逻辑编码以及如何使解释具有可解释性。

Oct, 2022

输入特征归因分析的统一框架

机器学习模型的决策过程解释对于确保其可靠性和公平性至关重要。我们提出了一个统一框架，通过四个诊断属性实现了突出和交互式解释的直接比较，并揭示了不同诊断属性方面各解释类型的优势。突出解释对模型预测最为忠实，而交互式解释对于学习模拟模型预测提供了更好的效用，这些认识进一步凸显了未来研究发展结合方法以提高所有诊断属性的需求。

Jun, 2024

值得信赖的机器学习的声音解释

通过提出 sound explanation 的概念来解决机器学习系统可解释性问题，并把特征选择方法作为 sound explanation 应用于癌症预测模型以获得医生信任。

Jun, 2023

解释的形状：机器学习中基于规则的解释的拓扑学解释

通过引入一个拓扑框架，本文研究了基于规则的解释方法的解释能力，提出了解释方案的可定义性的概念，并讨论了解释方案的选择如何取决于用户对领域和特征空间概率测度的了解程度。

Jan, 2023

模型解释的有趣特性

本文研究了产生于复杂模型后期的线性解释或与上下文解释网络 (CENs) 一起产生的线性解释。研究主要聚焦于线性解释是否一直是始终如一的或容易引导，同时研究在将其整合到预测过程中时，解释是否会影响模型程序的表现。我们的分析揭示了不同方法产生的解释的某些属性，并建议共同预测和解释的学习模型经常具有优势。

Jan, 2018

利用互补示例学习解释技巧

本研究提出了一种新框架来生成互补的解释，其中由三个不同的神经网络来参数化需要解释和被解释的变量的联合分布，即预测器，语言解释器和示例选择器，结果表明该方法是有效的。

Dec, 2018

线性模型的最优解释

提出了一种基于最优化的规则，将线性模型分解为不断增加复杂性的一系列模型，从而为线性模型创建解释，并派生出线性模型的参数化互操作性指标族，研究了解释性和预测准确性之间的权衡。

Jul, 2019

对解释的人类可解释性评估

研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务，来解释可解释的 AI 的互动可能。结果表明，特定的正则化可以用于优化可解释性，而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明，认知块比变量重复更影响表现，并且这些趋势在任务和领域中保持一致。

Jan, 2019

解释黑盒序列到序列模型预测的因果框架

采用黑盒结构化输入输出模型进行预测并通过干扰输入生成相关性图和解决分割问题来解释黑盒模型预测，着重于序列生成问题并采用变分自编码器来产生有意义的干扰，我们在多个 NLP 序列 - 生成任务中测试了该方法。

Jul, 2017