针对语义分割的对抗补丁攻击的认证防御
本研究介绍了一种针对图像贴片对抗攻击的可证明防御方法,并通过对以往方法的比较,证明了该方法在 CIFAR-10 和 ImageNet 上能有效提高防御水平,是当前领先的防御方法之一。
Feb, 2020
该研究评估并提出改进方法,以提高当受到数字、模拟和实际的对抗性补丁攻击时,对语义分割模型的稳健性。研究结果表明,尽管对抗效果在数字和真实攻击中可见,但其影响通常局限于图像周围的补丁区域,这就打开了进一步探讨实时语义分割模型的空间鲁棒性的问题。
Jan, 2022
本研究通过简单的案例研究,在模拟和实际生活中证明了补丁攻击可用于改变分割网络的输出。通过一些例子和网络复杂性的研究,我们还证明了在给定大小的补丁攻击中可以生成的可能输出图的数量通常小于它们影响的区域或在实际应用中应该攻击的区域。我们将证明,基于这些结果,大多数基于补丁的攻击在实践中不可能是通用的,即它们不能生成任意输出图或者如果可以,它们的空间范围明显小于补丁的感受野。
May, 2022
本研究提出了一种针对补丁攻击的可验证防御机制,通过将可执行文件划分为非重叠的块,并采用多数投票的方式计算最终预测结果,从而最小化注入内容的影响。此外,引入了预处理步骤,将部分和标头的大小固定为块大小的倍数,从而确保恶意内容仅存在于整数个块中,同时保证对内容插入攻击具有认证的鲁棒性保证。经过广泛的消融研究,结果表明我们的方法在强攻击下展现出无与伦比的鲁棒性,优于文献中基于随机平滑的防御方法。
May, 2024
提出在高分辨率图像上实现高可证明鲁棒性的认证防御方法,减少敌对区域的搜索开销和过滤预测噪声,从而通过利用重要神经元的本地化性质增强了认证准确性。
Oct, 2021
利用 Vision Transformer 结合 Derandomized Smoothing 进行逐步平滑的图像建模任务来训练并提高证明补丁防御机制的可证准确性,同时重构了原始的 ViT 的全局自注意结构以适用于在实际世界中的高效推理和部署。在 ImageNet 数据集上,在 2% 区域补丁攻击下,本文方法达到 41.70% 的证明准确度,比之前最佳方法高出近 1 倍(26.00%)。同时,本方法达到了 78.58% 的干净准确度,接近正常 ResNet-101 的准确度,并在 CIFAR-10 和 ImageNet 上实现最先进的干净和证明准确度。
Mar, 2022
我们分析了攻击技术并提出了一种强大的防御方法,通过利用对象的形状、纹理和位置,成功降低了 20% 以上的模型置信度。利用修复预处理技术,有效地恢复了原始的置信水平,展示了强大防御在减轻这些威胁中的重要性。我们的修复防御方法在仿真像素化的基于补丁的物理对抗攻击中显著提高了模型的韧性,实现了高精度和可靠的定位,尽管受到了对抗性攻击。这项工作推动了对抗挑战中对象检测和分类网络的韧性和可靠性的发展,并为关键应用提供了强大的基础。
Mar, 2024
PatchCleanser 是一种用于抵御基于物理世界中对受害对象打印和附加补丁的对抗性攻击的、在图片上执行的像素遮蔽的、适用于各种先进的图片分类器以实现高精度的、具有认证稳健性的防御方法。此方法可以证明在某些图像上永远预测正确的类别标签,同时较之前的工作显着提高了认证稳健性。
Aug, 2021