Oct, 2018

Logit Pairing 方法可以欺骗基于梯度的攻击

TL;DR通过研究,我们发现 Clean Logit Pairing (CLP) 和 Logit Squeezing (LSQ) 等方法仅仅增加了制造对抗样本的梯度优化难度并未真正提高分类器的对抗鲁棒性;我们提出的 Adversarial Logit Pairing (ALP) 方法可以在对抗训练的情况下提高分类器的对抗鲁棒性,但是这种提高远远低于之前所声明的。我们得出的结论是,模型对迭代 PGD 攻击的评估严重依赖所使用的参数,并可能导致关于模型鲁棒性的错误结论。