AAAIJan, 2019

利用对抗样本实现可解释的深度神经网络

TL;DR本研究旨在通过减少神经元的不确定性,提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性,以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性