Jun, 2023

神经元激活最大化的解释遭受对抗性攻击

TL;DR本文提出并演示了一种优化框架,用于操纵模型以达到欺骗解释的目的,并展示了一些流行的激活最大化解释技术的若干种可以被操纵以改变解释的方式,揭示了这些方法的可靠性。