蜜罐防御的部分破解以捕获对抗性攻击

Sep, 2020

蜜罐防御的部分破解以捕获对抗性攻击

A Partial Break of the Honeypots Defense to Catch Adversarial Attacks

Nicholas Carlini

TL;DR本文研究了一种在神经网络中注入 “蜜罐” 以检测敌对攻击的防御机制，并通过降低检测真正阳性率至 0％和检测 AUC 至 0.02 破坏了其基线版本防御。原始论文的作者在 CCS'20 论文中修正了这种攻击，为了促进更多的研究，我们在文中提供了完整的攻击过程记录。

Abstract

A recent defense proposes to inject "honeypots" into neural networks in order to detect →

defense neural networks adversarial attacks honeypots distortion bounds

发现论文，激发创造

使用蜜罐捕获神经网络上的对抗攻击

我们在此论文中探讨一种新的防御机制来保护深度神经网络模型，该机制引入了陷阱门，通过激励攻击者搜索对抗性示例，它形成了防御系统，并证明了该防御系统能够避免最先进的攻击，并在分类方面几乎没有影响。

Apr, 2019

HoneyModels：机器学习蜜罐

研究纵观 Adversarial Machine Learning 防御策略的不足，通过建立 HoneyModels 模型，给模型添加特定知识水印来检测对抗性攻击，实验表明该模型可以检测到 69.5% 的攻击，并保留原模型的功能。

Feb, 2022

我不认识你，但我能够捕捉你：针对目标检测的多样对抗性补丁的实时防御

提出了一种创新的模型 NutNet，用于检测对抗性贴片，在高泛化性、鲁棒性和效率方面表现优异。通过对六个检测器进行实验，包括 YOLOv2-v4，SSD，Faster RCNN 和 DETR 在数字和物理领域上，结果显示我们的方法可以有效防御 HA 和 AA，仅损失 0.4% 的干净性能。与四种基准防御方法进行对比，我们的方法展示了比 HA 和 AA 现有方法分别高 2.4 倍和 4.7 倍的平均防御性能。此外，NutNet 仅增加了 8% 的推理时间，可以满足检测系统的实时要求。NutNet 的演示可在 https://sites.google.com/view/nutnet 上找到。

Jun, 2024

陷阱设置：通过诱饵捕获和击败预训练语言模型中的后门

本研究旨在设计一种抵御后门攻击的微调过程，使用预训练语言模型并引入蜜罐模块，以吸收后门信息，并通过对中间层表示的约束，在微调过程中防止后门创建。在基准数据集上进行的综合实验证明了我们的防御策略的有效性和鲁棒性，与先前的最新方法相比，攻击成功率大幅降低了 10％至 40％。

Oct, 2023

DARCY：甜如蜜的兔子洞：使用蜜罐检测通用触发器的对抗攻击

本篇论文提出了一种基于引诱陷阱的防御机制 DARCY，用于对抗最近提出的文本对抗攻击方法 Universal Trigger (简称 UniTrigger)。通过向神经网络模型注入多个引诱陷阱，DARCY 能够在多个公共数据集上检测到 UniTrigger 的攻击，并保持 1% 内的清洁输入预测准确性。

Nov, 2020

物体隐藏器：面向物体检测器的对抗性贴片攻击

该研究关注深度神经网络的安全性问题，着重研究针对目标检测算法的对抗攻击方法，通过生成特定的对抗补丁实现攻击，提出的两种算法均可有效地、通用地攻击最新的目标检测模型。此外，参加了阿里巴巴的天池对抗挑战，并在 1701 对抗团队中获得了前七名。

Oct, 2020

提高目标检测和分类 AI 模型对抗性贴纸攻击的鲁棒性

我们分析了攻击技术并提出了一种强大的防御方法，通过利用对象的形状、纹理和位置，成功降低了 20% 以上的模型置信度。利用修复预处理技术，有效地恢复了原始的置信水平，展示了强大防御在减轻这些威胁中的重要性。我们的修复防御方法在仿真像素化的基于补丁的物理对抗攻击中显著提高了模型的韧性，实现了高精度和可靠的定位，尽管受到了对抗性攻击。这项工作推动了对抗挑战中对象检测和分类网络的韧性和可靠性的发展，并为关键应用提供了强大的基础。

Mar, 2024

基于区块链的物联网系统蜜罐的战略部署

使用具有智能合约功能的入侵检测系统，将普通节点转化为诱饵来应对可疑活动，从而加强区块链物联网网络的安全性；利用贝叶斯博弈的策略分析潜在攻击者与增强型入侵检测系统之间的交互作用，重点关注并预测外部攻击，并强调在面对不断演变的攻击模式时的策略决策、优化的诱饵部署和自适应策略。

May, 2024

CVPR 2018 白盒子对抗攻击防御方法的鲁棒性研究

本研究针对 2018 CVPR 中提出的两种白盒防御策略进行评估，发现它们并不有效，通过现有技术可以将被防御的神经网络模型的准确率降至 0%。

Apr, 2018

对抗性贴片的认证防御

本文介绍了对抗补丁攻击的认证和经验性防御措施，其中首次提出了认证防御措施，并实验了不同补丁形状的测试，获得了出人意料的良好的鲁棒性转移。

Mar, 2020