Jun, 2019

通过选择性特征重建来抵御普适性攻击

TL;DR本文提出了一种新的深度神经网络防御机制,该机制通过对DNN特征域中最易受到对抗性噪声攻击的预训练的卷积特征进行可训练的特征重建,将这些DNN滤波器激活转换成鲁棒性更高的特征,从而有效地保护免受通用扰动的攻击。通过重建至多6个DNN层中顶部50%的易受攻击的激活并保留所有剩余的激活状态,无需其他修改,我们的防御在 ImageNet 上经过一个通用对抗攻击的训练即可对抗其他类型的通用攻击。