Mar, 2024

揭示神经网络在参数学习和防御中的漏洞与对抗解释感知后门

TL;DR通过统计分析卷积神经网络中的权重变化,我们设计了一种方法来防御现代可解释性对抗攻击,成功率下降了 99%,原始解释和防御后(攻击后)解释的均方误差减少了 91%。