针对语义分割的对抗补丁攻击的认证防御

ICLRSep, 2022

针对语义分割的对抗补丁攻击的认证防御

Certified Defences Against Adversarial Patch Attacks on Semantic Segmentation

Maksym Yatsura, Kaspar Sakmann, N. Grace Hua, Matthias Hein, Jan Hendrik Metzen

TL;DR本文提出一种名为 “Demasked Smoothing” 的方法，可以通过不需要模型结构或训练上的改变，提高深度学习模型抵抗语义分割任务中新兴的对抗性贴花攻击的鲁棒性，提供了可靠的检测和恢复机制。

Abstract

adversarial patch attacks are an emerging security threat for real world deep learning applications. We present demasked smoothing, the first approach (up to our knowledge) to certify the robustness of

adversarial patch attacks robustness certification semantic segmentation models demasked smoothing computational efficiency

发现论文，激发创造

(去) 随机化平滑处理：针对补丁攻击的可证明防御

本研究介绍了一种针对图像贴片对抗攻击的可证明防御方法，并通过对以往方法的比较，证明了该方法在 CIFAR-10 和 ImageNet 上能有效提高防御水平，是当前领先的防御方法之一。

Feb, 2020

自主驾驶实时语义分割模型的现实世界的对抗鲁棒性

该研究评估并提出改进方法，以提高当受到数字、模拟和实际的对抗性补丁攻击时，对语义分割模型的稳健性。研究结果表明，尽管对抗效果在数字和真实攻击中可见，但其影响通常局限于图像周围的补丁区域，这就打开了进一步探讨实时语义分割模型的空间鲁棒性的问题。

Jan, 2022

关于基于补丁的对抗攻击在语义分割问题上的可行性和普适性

本研究通过简单的案例研究，在模拟和实际生活中证明了补丁攻击可用于改变分割网络的输出。通过一些例子和网络复杂性的研究，我们还证明了在给定大小的补丁攻击中可以生成的可能输出图的数量通常小于它们影响的区域或在实际应用中应该攻击的区域。我们将证明，基于这些结果，大多数基于补丁的攻击在实践中不可能是通用的，即它们不能生成任意输出图或者如果可以，它们的空间范围明显小于补丁的感受野。

May, 2022

基于机器学习的恶意软件检测器的认证对抗鲁棒性：(去) 随机平滑

本研究提出了一种针对补丁攻击的可验证防御机制，通过将可执行文件划分为非重叠的块，并采用多数投票的方式计算最终预测结果，从而最小化注入内容的影响。此外，引入了预处理步骤，将部分和标头的大小固定为块大小的倍数，从而确保恶意内容仅存在于整数个块中，同时保证对内容插入攻击具有认证的鲁棒性保证。经过广泛的消融研究，结果表明我们的方法在强攻击下展现出无与伦比的鲁棒性，优于文献中基于随机平滑的防御方法。

May, 2024

对抗性贴片的认证防御

本文介绍了对抗补丁攻击的认证和经验性防御措施，其中首次提出了认证防御措施，并实验了不同补丁形状的测试，获得了出人意料的良好的鲁棒性转移。

Mar, 2020

医学图像分割深度学习模型认证

基于随机平滑和扩散模型的医学图像分割基线，通过多项公共数据集的实验证明其能够在高度扰动的图像中保持高准确性。

Oct, 2023

ScaleCert：具有稀疏浅层的可扩展认证抵御对抗性补丁

提出在高分辨率图像上实现高可证明鲁棒性的认证防御方法，减少敌对区域的搜索开销和过滤预测噪声，从而通过利用重要神经元的本地化性质增强了认证准确性。

Oct, 2021

基于 Vision Transformer 的实用可验证补丁防御

利用 Vision Transformer 结合 Derandomized Smoothing 进行逐步平滑的图像建模任务来训练并提高证明补丁防御机制的可证准确性，同时重构了原始的 ViT 的全局自注意结构以适用于在实际世界中的高效推理和部署。在 ImageNet 数据集上，在 2% 区域补丁攻击下，本文方法达到 41.70% 的证明准确度，比之前最佳方法高出近 1 倍（26.00%）。同时，本方法达到了 78.58% 的干净准确度，接近正常 ResNet-101 的准确度，并在 CIFAR-10 和 ImageNet 上实现最先进的干净和证明准确度。

Mar, 2022

提高目标检测和分类 AI 模型对抗性贴纸攻击的鲁棒性

我们分析了攻击技术并提出了一种强大的防御方法，通过利用对象的形状、纹理和位置，成功降低了 20% 以上的模型置信度。利用修复预处理技术，有效地恢复了原始的置信水平，展示了强大防御在减轻这些威胁中的重要性。我们的修复防御方法在仿真像素化的基于补丁的物理对抗攻击中显著提高了模型的韧性，实现了高精度和可靠的定位，尽管受到了对抗性攻击。这项工作推动了对抗挑战中对象检测和分类网络的韧性和可靠性的发展，并为关键应用提供了强大的基础。

Mar, 2024

PatchCleanser：针对任何图像分类器的对抗性贴片确保鲁棒性防御

PatchCleanser 是一种用于抵御基于物理世界中对受害对象打印和附加补丁的对抗性攻击的、在图片上执行的像素遮蔽的、适用于各种先进的图片分类器以实现高精度的、具有认证稳健性的防御方法。此方法可以证明在某些图像上永远预测正确的类别标签，同时较之前的工作显着提高了认证稳健性。

Aug, 2021