通过深度神经网络中的特征图测试方式消除后门特征图
本文提出了一种快速特征生成技术,可以对深度神经网络进行快速的安全检测,尤其是可以在几秒钟内检测出所谓的后门(backdoors),并且无需大量计算资源和训练数据。
Jul, 2020
该论文研究发现深度神经网络易受后门攻击影响,通过自监督学习和半监督微调等方法提出了一种解决方案,通过将原来的训练过程分解成三个阶段,有效地减轻了后门攻击带来的威胁。
Feb, 2022
该论文建立了一套名为BackdoorBench的综合性基准测试,包含8个最先进的攻击和9个最先进的防御算法,在5个模型和4个数据集上进行了8000个两两组合的全面评估,并通过不同角度的分析研究了Backdoor Learning中不同因素的影响。
Jun, 2022
本文研究基于深度神经网络的后门攻击,在图像的预处理阶段,采用特殊参数的空间变换作为触发模式,仅旋转到特定角度的图片就能激活被攻击深度神经网络的嵌入式后门;同时,本文验证了虽然已存在的后门防御策略具备一定的抗攻击性,但是仍然无法阻止本文介绍的新攻击模式。
Nov, 2022
在这项研究中,我们提出了DeepFeature用于从特征图层面测试深度神经网络。通过大量实验证明:(1) DeepFeature是检测模型易受攻击特征图的强大工具;(2) DeepFeature的测试用例选择具有高的错误检测率,能够检测更多类型的错误(与基于覆盖率引导的选择技术相比,错误检测率提高了49.32%);(3) DeepFeature的模糊测试技术也优于当前的模糊测试技术,并且更高效地生成有价值的测试用例。
Jul, 2023
我们提出了一种针对深度神经网络(DNNs)的后期开发防御新方法,用于对抗恶意背后进攻,该方法通过一种新颖的反向工程方法,可以直接从给定的感染模型中提取出背后功能,并将其重建成仅能识别背后输入的模型。我们称之为背后专家模型。我们的防御方法在多个数据集和模型架构上经过验证,有效地减轻了16种最先进的背后进攻。
Aug, 2023
深度神经网络容易受到后门攻击,传统的防御方法存在各种问题。本研究提出了一种基于特征位移调整的后门净化方法,通过调整分类器权重来使得后门特征与正常特征分离,实验结果表明该方法在多种攻击场景下表现稳定,并且具有较低的计算成本。
Oct, 2023
本文介绍了一种新的检测器,利用被保护深度神经网络的内部特征映射来检测和逆向工程后门,并识别其目标类别;该检测器可以在训练结束后操作,对各种内部化机制都具有高效性,且计算开销较低,可实现可扩展性。
Feb, 2024
深度神经网络面临着对抗后门攻击的挑战,虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能,但我们能否自信地声称已经从模型中真正消除了后门威胁?本文重新调查了防御模型(即采用现有后期训练防御策略的防御模型)中的后门特征,并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是,我们发现原始后门在防御模型中仍然存在,而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现,我们通过设计精心的微小扰动,利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外,我们还将后门重激活扩展到黑盒场景,并提出了两种有效的方法:基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习(即CLIP)任务上的有效性。总之,本研究揭示了现有防御策略中尚未探索的关键漏洞,强调了设计更加稳健和先进的后门防御机制的紧迫性。
May, 2024