Aug, 2023

通过校正神经激活分布进行后门缓解

TL;DR这篇论文揭示和分析了后门攻击的一个重要特性:成功攻击会导致后门触发实例的内部层激活分布发生改变,与干净实例的分布不同。基于这一观察,作者提出了一种高效和有效的方法,通过使用逆向工程的触发器来纠正分布变化,从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数,但与需要大量 DNN 参数调整的现有方法相比,其缓解性能普遍更好。它还能有效检测带有触发器的测试实例,可以帮助及时发现恶意攻击者对后门进行利用。