ICLRApr, 2024

BruSLeAttack:一种查询高效的基于评分的黑盒稀疏对抗攻击

TL;DR我们研究了通过观察模型查询的基于分数回复而生成稀疏对抗样本的独特且不太被理解的问题。我们提出了 BruSLeAttack 这一更快(更高效)的贝叶斯算法,用于构建稀疏对抗扰动,并在图像分类任务中达到了最先进的攻击成功率和查询效率,从而帮助更快地评估模型的漏洞性,提高我们对部署系统的安全性和可靠性的警觉。