自动基于概念的解释

Feb, 2019

Towards Automatic Concept-based Explanations

Amirata Ghorbani, James Wexler, James Zou, Been Kim

TL;DR提出了概念解释的原则和求解算法 ACE，能够系统性地通过可视化概念提供对深度神经网络预测的重要性的人类可解释性解释。

Abstract

interpretability has become an important topic of research as more machine learning (ML) models are deployed and widely used to make important decisions. Most of the current explanation methods provide explanations

interpretability machine learning explanations concept-based automated visual extraction

发现论文，激发创造

自动概念抽取和概念重要性评估统一的整体方法

提出概念为基础的方法可帮助我们解释人工神经网络的决策，介绍了一个理论框架，可以定义和澄清概念提取和重要性评估两个步骤，并尝试解决解释性中的一个关键问题：如何有效地识别以类似共享策略分类的数据点组成的簇。

Jun, 2023

神经网络的以人为本的概念解释

该研究论文介绍了基于概念的解释，比如概念激活向量可以有效地描述概念，并讨论了自动提取概念的方法，展示了它们在真实世界应用中的效用。

Feb, 2022

关于在深度神经网络中基于概念的完整性感知解释

本文研究深度神经网络的基于概念的可解释性，提出了一种概念完备性度量和一种概念发现方法来寻找既能够解释模型预测，又易于理解的完备概念集，并提出 ConceptSHAP 方法来为每个概念定义重要性得分，在合成和真实数据集上验证了方法的有效性。

Oct, 2019

基于概念的模型改进方法综述

最近的研究关注点已经从简单地提高深度神经网络（DNNs）在各种任务中的性能转向了更具人可解释性的 DNNs。人工智能解释性领域已经观察到了包括基于显著性和基于概念的技术。概念是人类可理解的数据单元，是人类思考的基础。本文系统地回顾和分类了 DNNs 中各种概念表示及其发现算法，特别是在视觉领域。同时也提供了关于基于概念的模型改进文献的详细信息，这是第一个调查基于概念的模型改进方法的研究。

Mar, 2024

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的 AI 研究中人类评价的重要性下应该得到重视。

Dec, 2020

概念解释估计应该具备不确定性意识

用可理解的人类概念来解释模型的全局解释的不稳定性问题以及提出了一种基于不确定性的贝叶斯估计方法，可以提高概念解释的可靠性。

Dec, 2023

对解释的人类可解释性评估

研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务，来解释可解释的 AI 的互动可能。结果表明，特定的正则化可以用于优化可解释性，而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明，认知块比变量重复更影响表现，并且这些趋势在任务和领域中保持一致。

Jan, 2019

使用高影响概念解释语言模型的预测

本文提出了一个完整的框架，将基于概念的解释性方法扩展到 NLP 领域，提出了一种后期解释性方法，从预训练模型的隐藏层激活中提取具有预测高水平特征（概念），优化具有高影响力的特征的存在，设立了多种评估指标。在真实和合成任务上的广泛实验表明，与基线相比，我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。

May, 2023

对文本数据进行特征重要性和规则提取的可解释性比较

本文研究机器学习算法中普遍存在的可解释性方法，通过不同的解释方法应用到简单的模型中，发现不同之处并提出一种新的方法来比较不同解释间的差异。

Jul, 2022

结合概念分析和 ILP 的 DNN 表达式解释

该论文研究了如何利用深度学习神经网络中学习到的内在特征，利用概念分析方法和归纳逻辑编程理论，构建基于符号的模型，实现黑盒机器学习的可解释性，体现其透明度和可靠性的要求。

May, 2021