ICLRJul, 2021

对抗训练可能是把双刃剑

TL;DR本文研究了对抗训练在提高图像分类器对白盒攻击的鲁棒性中的有效性,以及在黑盒攻击下的细微差别,并定义了鲁棒性增益的度量指标来衡量其效果。研究表明,尽管对抗训练是提高白盒场景下的鲁棒性的有效方法,但对于更现实的基于决策的黑盒攻击,则可能无法提供如此良好的鲁棒性增益。此外,即使是最小的扰动白盒攻击也可以比常规攻击更快地针对对抗训练过的神经网络收敛。