Mar, 2024

白盒神经网络概念框架

TL;DR该研究介绍了语义特征作为一种完全可解释的神经网络层的概念框架,并提出了一个证明概念模型,解决了 MNIST 相关子问题,该模型由 4 个这样的层组成,具有 4.8K 个可学习参数,模型易于解释,在没有任何形式的对抗训练的情况下,实现了与人类级别的对抗测试准确性,需要很少的超参数调整,并且可以在单个 CPU 上快速训练,该技术具有通用性,有望实现对完全可推广的白盒神经网络的范式转变。