用另一个黑盒子解释一个黑盒子是否有意义？

Apr, 2024

用另一个黑盒子解释一个黑盒子是否有意义？

Does It Make Sense to Explain a Black Box With Another Black Box?

Julien Delaunay, Luis Galárraga, Christine Largouët

TL;DR透明方法和不透明方法是解释黑盒的两个主要方法家族。实证证据表明，不透明方法在应用中可能会增加复杂性，而没有显著的性能增益，从而引发了关于使用另一个黑盒解释黑盒的问题的讨论。

Abstract

Although counterfactual explanations are a popular approach to explain ML black-box classifiers, they are less widespread in nlp. Most methods find those explanations by iteratively perturbing the target document

counterfactual explanations ml black-box classifiers nlp transparent methods opaque approaches

发现论文，激发创造

平滑解释黑匣子 —— 反事实方法

该研究提出了一种黑盒对抗解释器来解释医学应用中的图像分类模型，并通过对诊断放射学居民进行实验，发现反事实解释是唯一能显着提高用户对分类器决策理解的解释方法。

Jan, 2021

基准测试可解释性人工智能的反事实算法：从白盒到黑盒

该研究通过在三种不同类型的机器学习模型上进行基准评估来调查机器学习模型对反事实解释生成的影响，发现不同的机器学习模型对反事实解释生成没有影响，强烈建议进行定性分析来确保反事实解释的稳健分析和潜在偏差的识别。

Mar, 2022

使用概率对比假设解释黑盒算法

该研究提出一种基于因果关系的方法来解释黑盒决策系统，并使用概率对比反事实证明其有效性，能够为受算法决策影响的个体提供可行的补救措施。该方法不需要了解算法内部结构，能够计算全局、局部和情境层面的有效解释和补救措施。经实验证明，该方法较 XAI 的其他流行算法效果更好。

Mar, 2021

利用生成的 LLM 的反事实文本来解释黑盒 NLP 模型

解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要，本文提出了两种针对模型无关性的倒因果估算方法，分别基于生成和匹配，并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。

Oct, 2023

相关无关性：为图像分类器生成对抗性解释

本文介绍了一种基于生成对抗网络 (GAN) 的方法，用于生成可以解释神经网络黑盒模型的替代性解释，进一步通过用户研究验证了替代性解释与反事实解释相辅相成。

May, 2024

一个解释并不能适用于所有情况：交互式解释对于机器学习透明度的承诺

通过交互式机器学习，将对比解释应用于黑盒机器学习系统，个性化调整其条件语句并通过提问 “What if？” 的方式提取更多解释，从而提高系统的透明度。

Jan, 2020

反事实编辑器的反事实分析：一种基于回译的方法

通过提出一个新的反向翻译的评估方法，我们针对自然语言处理模型和任务的解释方法的一致性问题进行了调查和分析，并提出了一种新的测量指标来评估不同特征的反事实生成方法的一致性。

May, 2023

解释是否有助于校准黑箱模型？

该研究探讨了如何通过利用模型行为的解释来改善黑盒模型在新领域中的性能，通过提取由黑盒模型解释技术生成的模型属性与人类直觉相结合的特征，使用一个简单的分类器作为校准器，我们成功地在应用程序方面提高了准确性，并证明了该校准模型在某种程度上在跨任务之间具有普适性。

Oct, 2021

通过有意义的扰动提供黑匣子的可解释性解释

该研究提出了一种适用于任何黑盒机器学习算法的通用解释框架，并将其特化以找到对分类器决策最负责的图像部分。该方法是模型无关且可测试的，因为它基于明确且可解释的图像扰动。

Apr, 2017

基于因果代理模型的概念模型解释

本文旨在探讨对于自然语言处理系统的解释方法中存在的因果推理问题，提出了一个新的 Causal Proxy Model (CPM) 方法，它可以通过近似反事实样本来创建强大的因果解释模型，解释模型性能与黑盒模型类似甚至更好。

Sep, 2022