Nov, 2019

安全玩法:具备放弃选项的对抗性鲁棒性

TL;DR本文探讨了一种适用于分类器在对抗样本上放弃输出任何类别 (即通过放弃输出任何类别来实现对抗鲁棒性) 的情况下的对抗鲁棒性问题,提出了一种新的带有放弃选项的对抗鲁棒性目标函数,并提出了一个基于该目标函数的基准,最后提出了一种 Combined Abstention Robustness Learning (CARL) 方法来实现分类器及其应该放弃输出的输入空间的区域的联合学习。通过对 PGD 和 DeepFool 等攻击的评估,得出使用 CARL 训练的分类器比基准分类器更精确、更鲁棒、更有效。