Jun, 2023
神经元激活最大化的解释遭受对抗性攻击
Adversarial Attacks on the Interpretation of Neuron Activation Maximization
Geraldin Nanfack, Alexander Fulleringer, Jonathan Marty, Michael Eickenberg, Eugene Belilovsky
TL;DR本文提出并演示了一种优化框架,用于操纵模型以达到欺骗解释的目的,并展示了一些流行的激活最大化解释技术的若干种可以被操纵以改变解释的方式,揭示了这些方法的可靠性。