白盒神经网络概念框架
本研究介绍了两种神经网络的概念视图,即多值视图和符号视图,并通过在 ImageNet 和 Fruit-360 数据集上的实验测试了其概念表达能力。此外,论文还展示了这些视图可以量化不同学习架构之间的概念相似度,并演示了如何将概念视图应用于从神经元中归纳学习人类可理解的规则,从而为全局解释神经网络模型做出贡献。
Sep, 2022
通过一个称为 Concept-Monitor 的框架以及一个新的统一的嵌入空间和概念多样性度量方法,我们提出了一个通用的框架,可以自动帮助我们了解黑箱 DNN 训练进程,并且对 DNN 培训过程进行可解释的可视化,还提出了一个新的训练正则化器,以激励隐藏神经元学习不同的概念,从而改善培训表现,并应用于敌对培训、微调和网络修剪等几个情景中。
Apr, 2023
通过在深度模型中主动注入知识,使用语义概念的层次树规范化图像数据实例的表达方式,提高模型可解释性,改善语义概念的分离,并不会对模型的分类性能产生负面影响。
Jul, 2023
该论文提出了一种带有附加概念层的 CNN 架构的引导学习方法,用于学习视觉特征和单词短语之间的关联,并通过优化预测准确性和特征表示的语义来学习与人类感知一致的概念,实验结果表明,所提出的模型可以在不牺牲准确性的情况下学习一致于人类感知的概念,并可将这些学习到的概念转移到具有相似概念的新对象类别中。
Jan, 2021
本篇论文提出了一种从卷积神经网络中提取和解释知识的方法,并通过可解释的加性模型量化地解释了神经网络预测的理由,解决了可解释性问题和 Typical Bias-Interpreting 问题,并通过实验证明了该方法的有效性。
Dec, 2018
该论文提出了一种新颖的概念学习框架,用于增强视觉分类任务中模型的可解释性和性能,通过将非监督解释生成器附加到主分类器网络中,并利用对抗训练的方式,使模型从潜在表征中提取视觉概念并与人可解释的视觉属性隐式对齐,该方法的实验结果验证了其稳健性和产生一致的概念激活,同时研究了对抗训练协议中的扰动对分类和概念获取的影响,从而实现了构建具有任务对齐概念表征的内在可解释深度视觉模型的显著进展,为开发可信任的用于真实感知任务的人工智能提供了关键支持。
Jan, 2024
本文介绍了一种名为 Agglomerator 的框架,它可以通过视觉线索提供部分 - 整体层次结构的表示,并组织与类别之间的概念语义层次结构相匹配的输入分布,从而提高神经网络的可解释性。作者在 SmallNORB、MNIST、FashionMNIST、CIFAR-10 和 CIFAR-100 等常见数据集上进行了评估,并提供了比其他最先进方法更易解释的模型。
Mar, 2022
利用自适应选择概念发现,结合神经元激活图和 Shapley 值生成定位概念图和热图,并利用热图相似性估计预测不确定性,提供了统一的解决方案,以更好解释神经网络的决策。
Feb, 2024
探究神经网络中概念随层数变化的编码方式,引入概念白化机制(CW)对网络的中间层进行调整以更好地理解计算过程。实验证明,CW 可以提供更清晰的概念层次,是批量归一化层的替代方案。
Feb, 2020