将知识表征映射到概念：回顾与新视角

AAAIDec, 2022

将知识表征映射到概念：回顾与新视角

Mapping Knowledge Representations to Concepts: A Review and New Perspectives

Lars Holmberg, Paul Davidsson, Per Linde

TL;DR该研究审查了通过提出分类法来将人类可理解的概念与神经网络中的内部表示相对应的研究，并发现了与模型可解释性目标有关的文学研究中的歧义，即是理解机器学习模型还是在部署领域有用的可行解释。

Abstract

The success of neural networks builds to a large extent on their ability to create internal knowledge representations from real-world high-dimensional data, such as images, sound, or text. Approaches to extract and present these representations, in order to explain the neural network's

neural networks internal representations explanations taxonomy model explainability

发现论文，激发创造

从神经激活到概念：关于解释神经网络中的概念的调查

综述了最近的方法来解释神经网络中的概念，强调了将学习和推理结合起来的重要性，并探讨了将概念知识插入神经网络架构的可能性，为实现基于可解释概念的神经符号人工智能迈出重要一步。

Oct, 2023

神经网络的以人为本的概念解释

该研究论文介绍了基于概念的解释，比如概念激活向量可以有效地描述概念，并讨论了自动提取概念的方法，展示了它们在真实世界应用中的效用。

Feb, 2022

神经网络中的正式概念视图

本研究介绍了两种神经网络的概念视图，即多值视图和符号视图，并通过在 ImageNet 和 Fruit-360 数据集上的实验测试了其概念表达能力。此外，论文还展示了这些视图可以量化不同学习架构之间的概念相似度，并演示了如何将概念视图应用于从神经元中归纳学习人类可理解的规则，从而为全局解释神经网络模型做出贡献。

Sep, 2022

基于概念的模型改进方法综述

最近的研究关注点已经从简单地提高深度神经网络（DNNs）在各种任务中的性能转向了更具人可解释性的 DNNs。人工智能解释性领域已经观察到了包括基于显著性和基于概念的技术。概念是人类可理解的数据单元，是人类思考的基础。本文系统地回顾和分类了 DNNs 中各种概念表示及其发现算法，特别是在视觉领域。同时也提供了关于基于概念的模型改进文献的详细信息，这是第一个调查基于概念的模型改进方法的研究。

Mar, 2024

利用自组织映射在神经网络中寻找概念表示

神经网络学习过程中，通过自组织映射可以视觉和计算地检测神经网络各层激活向量与抽象概念之间的对应关系，并且相对熵可以用作一种合适的方法来识别和定位概念的神经表示，实现概念的可视化并理解其在解决预测任务中的重要性。

Dec, 2023

概念嵌入分析：综述

本文介绍了可解释人工智能（XAI）中的概念分析（CA）方法及其在深度神经网络内的应用，提供了一般性的 CA 定义和分类，总结了 30 多种相关方法和 15 个数据集，同时指出了未来研究方向和挑战。

Mar, 2022

神经网络概念的单元测试

本研究提出了关于符号概念的理论，并使用一个简单的视觉概念学习任务来评估多个现代神经结构与该理论的一致程度，发现这些模型可以成功通过测验，但在因果关系方面仍然存在重要的问题。

Jul, 2022

神经网络中表征学习和性能预测的量化方法

本文提出了一种基于伪核的新工具，用于分析和预测网络学习到的表示，通过验证其在简单测试案例上的使用，本文论证了该方法可预测权重初始化和训练计划对表示学习和下游并发多任务执行表现的影响。

Jul, 2023

概念反向传播：神经网络模型中学习概念的可解释人工智能方法

通过使用概念检测和概念反向传播方法，我们提出了一种神经网络模型的可视化方法，可以直接在模型输入空间中显示模型所依赖的信息，进而分析训练模型所使用的知识。

Jul, 2023

深度神经网络的理解、可视化和解释调查

该篇论文综述了深度神经网络在机器学习中的应用，针对一些需要保证安全性的决策（如控制系统和医疗应用），介绍了当前解释性人工智能（XAI）领域的研究，探究和解释 DNNs 内部和整体行为的方法。

Feb, 2021