白盒神经网络概念框架

Mar, 2024

A Conceptual Framework For White Box Neural Networks

Maciej Satkiewicz

TL;DR该研究介绍了语义特征作为一种完全可解释的神经网络层的概念框架，并提出了一个证明概念模型，解决了 MNIST 相关子问题，该模型由 4 个这样的层组成，具有 4.8K 个可学习参数，模型易于解释，在没有任何形式的对抗训练的情况下，实现了与人类级别的对抗测试准确性，需要很少的超参数调整，并且可以在单个 CPU 上快速训练，该技术具有通用性，有望实现对完全可推广的白盒神经网络的范式转变。

Abstract

This paper introduces semantic features as a general conceptual framework for fully explainable neural network layers. A well-motivated proof of concept model for relevant subproblem of →

semantic features fully explainable neural network layers mnist adversarial test accuracy white box neural networks

发现论文，激发创造

神经网络中的正式概念视图

本研究介绍了两种神经网络的概念视图，即多值视图和符号视图，并通过在 ImageNet 和 Fruit-360 数据集上的实验测试了其概念表达能力。此外，论文还展示了这些视图可以量化不同学习架构之间的概念相似度，并演示了如何将概念视图应用于从神经元中归纳学习人类可理解的规则，从而为全局解释神经网络模型做出贡献。

Sep, 2022

Concept-Monitor: 通过单个神经元理解深度神经网络训练

通过一个称为 Concept-Monitor 的框架以及一个新的统一的嵌入空间和概念多样性度量方法，我们提出了一个通用的框架，可以自动帮助我们了解黑箱 DNN 训练进程，并且对 DNN 培训过程进行可解释的可视化，还提出了一个新的训练正则化器，以激励隐藏神经元学习不同的概念，从而改善培训表现，并应用于敌对培训、微调和网络修剪等几个情景中。

Apr, 2023

层次语义树概念白化用于可解释的图像分类

通过在深度模型中主动注入知识，使用语义概念的层次树规范化图像数据实例的表达方式，提高模型可解释性，改善语义概念的分离，并不会对模型的分类性能产生负面影响。

Jul, 2023

通过引导概念学习实现可理解的卷积神经网络

该论文提出了一种带有附加概念层的 CNN 架构的引导学习方法，用于学习视觉特征和单词短语之间的关联，并通过优化预测准确性和特征表示的语义来学习与人类感知一致的概念，实验结果表明，所提出的模型可以在不牺牲准确性的情况下学习一致于人类感知的概念，并可将这些学习到的概念转移到具有相似概念的新对象类别中。

Jan, 2021

使用大型模型对深度视觉神经元进行自动化自然语言解释

通过研究神经元来解释深度神经网络并生成语义解释，以解决目前在此方面的限制、缺乏可伸缩性和适用性的问题。

Oct, 2023

语义和数量化解释神经网络

本篇论文提出了一种从卷积神经网络中提取和解释知识的方法，并通过可解释的加性模型量化地解释了神经网络预测的理由，解决了可解释性问题和 Typical Bias-Interpreting 问题，并通过实验证明了该方法的有效性。

Dec, 2018

通过生成对抗网络推进预先解释模型

该论文提出了一种新颖的概念学习框架，用于增强视觉分类任务中模型的可解释性和性能，通过将非监督解释生成器附加到主分类器网络中，并利用对抗训练的方式，使模型从潜在表征中提取视觉概念并与人可解释的视觉属性隐式对齐，该方法的实验结果验证了其稳健性和产生一致的概念激活，同时研究了对抗训练协议中的扰动对分类和概念获取的影响，从而实现了构建具有任务对齐概念表征的内在可解释深度视觉模型的显著进展，为开发可信任的用于真实感知任务的人工智能提供了关键支持。

Jan, 2024

神经网络中的可解释性部分 - 整体层次结构和概念 - 语义关系

本文介绍了一种名为 Agglomerator 的框架，它可以通过视觉线索提供部分 - 整体层次结构的表示，并组织与类别之间的概念语义层次结构相匹配的输入分布，从而提高神经网络的可解释性。作者在 SmallNORB、MNIST、FashionMNIST、CIFAR-10 和 CIFAR-100 等常见数据集上进行了评估，并提供了比其他最先进方法更易解释的模型。

Mar, 2022

WWW: 通过神经元概念的解释统一框架解释神经网络的什么、在哪里和为什么

利用自适应选择概念发现，结合神经元激活图和 Shapley 值生成定位概念图和热图，并利用热图相似性估计预测不确定性，提供了统一的解决方案，以更好解释神经网络的决策。

Feb, 2024

用于可解释图像识别的概念增白

探究神经网络中概念随层数变化的编码方式，引入概念白化机制（CW）对网络的中间层进行调整以更好地理解计算过程。实验证明，CW 可以提供更清晰的概念层次，是批量归一化层的替代方案。

Feb, 2020