Feb, 2019

通过对抗模型操纵欺骗神经网络解释

TL;DR本研究通过对神经网络解释方法进行对抗模型操纵,检验了其稳定性,并提出了两种欺骗类型 —— 被动和主动。研究结果指出,利用我们的模型欺骗方法,目前最先进的解释器都能轻松被骗过去。因此,神经网络解释方法的稳定性是开发出具有鲁棒性和可靠性的神经网络解释方法的重要标准。