ICMLMay, 2024

IBD-PSC: 基于参数缩放一致性的输入层后门检测

TL;DR这篇论文提出了一种名为 IBD-PSC 的简单而有效的输入层背门检测方法,通过放大模型参数,利用参数相关的一致性现象来过滤恶意测试图像,并设计了一种自适应方法选择 BN 层进行有效检测,通过基准数据集上的大量实验证实了 IBD-PSC 方法的有效性和效率,以及其对自适应攻击的抵抗性。