ICMLJul, 2021

使用异常特征向量检测、分类和警告离群对抗样本

TL;DRDeClaW 是一个可以检测、分类和警告分类神经网络中对抗性输入的系统,它可以从潜在特征中提取异常特征向量,以准确识别对抗攻击类型(例如 PGD、Carlini-Wagner 或清洁),初步发现表明该方法可以在 CIFAR-10 数据集上实现近 93% 的准确性。这些结果不仅可以用于探索对抗性攻击检测,还可以用于攻击类型分类和攻击特定的缓解策略设计。