Jul, 2023

可解释深度学习系统的单类目标特定攻击

TL;DR本文介绍了一种名为 SingleADV 的单分类目标特定对抗攻击算法,旨在生成通用扰动,使目标模型混淆特定目标类别的对象,并确保高度相关和准确的解释。我们通过实验验证了 SingleADV 的有效性,并对其进行了反制措施的讨论。