- 基于相机成像的物理隐形后门
本文提出了一种基于相机成像的物理隐形后门攻击方法,通过特定的相机拍摄的图像返回目标标签,而对其他图像返回正确结果,实验证明了我们提出的方法的可行性和对各种后门防御机制的稳健性。
- MASTERKEY: 实用的针对说话人验证系统的后门攻击
提出了一种名为 MASTERKEY 的后门攻击,针对智能手机系统中的说话者验证模型进行破坏,通过设计通用后门攻击任意目标说话者,成功率 100%,中毒率为 15%,在 3%中毒率时也能保持 50%的成功率。
- 通过机器遗忘进行的后门攻击
近年来,由于深度学习研究和应用的快速发展,人工智能的安全问题变得越来越突出。在这项工作中,我们提出了一种基于机器反学习的黑盒后门攻击方法,通过精心设计的样本对训练集进行增强,然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检 - BadSQA: 使用存在事件作为触发器的隐蔽后门攻击在非侵入性语音质量评估中
提出了一种利用存在事件作为触发器,实现高度隐秘的 NISQA 任务背门攻击的新方法,并在四个基准数据集上进行实验,使用了两种最先进的 NISQA 模型,结果表明该背门攻击的平均攻击成功率高达 99%,中毒率仅为 3%。
- MMPatchBackdoor:无需修改模型的深度神经网络背门攻击
在安全关键场景下,研究表明背门攻击可以在不修改神经网络模型的情况下实现,方法是在相机前放置一个精心设计的补丁(即背门补丁),它可以在大部分时间表现正常,并在输入图像包含攻击者控制的触发对象时产生错误预测。
- 无敌傍门防御
我们提出了一个有效的防御框架,该框架在数据预处理过程中注入非对抗性后门,以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中,我们的方法实现了业界领先的防御效果,在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御 - 通过深度神经网络中的特征图测试方式消除后门特征图
通过 Feature Map Testing(FMT)检测和消除背门特征图,该方法能显著降低最复杂和看不见的攻击触发器的攻击成功率,并在维持模型性能的同时减轻背门攻击的影响。
- ICML重新思考后门攻击
通过分析训练数据的结构信息,我们对反向门攻击问题提出了一种不同的方法,指出这些攻击在一般情况下是不可能被检测到的。基于此观察,我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后,基于假设条件,我们提出了一种新的原始方法来 - IMPOSITION: 通过场景注入的隐式后门攻击
该论文提出了一种新颖的后门攻击方法 ——IMPOSITION,它利用训练数据中的现实场景来触发模型输出,针对自动驾驶系统中的轨迹预测模块进行应用,旨在研究深度神经网络模型的可信度和安全性。该攻击方法具有隐蔽性和难以检测性,并可对自动驾驶系统 - 通过先决变换减轻后门攻击
本文提出了一种名为先决条件转换(Prerequisite Transformation,PT)的新方法,该方法可在不破坏模型性能的情况下对抗后门攻击,同时保护触发器特征和正常特征。
- 具有可视、语义、样本特异性和兼容触发器的强韧后门攻击
本文提出了一种名为 VSSC-trigger 的嵌入稳定扩散模型的新方法,使用文本触发器和良性图像生成对比度适当的图像,并解决了之前的不可见触发器在实际运用时出现的可见扭曲问题。
- 通过多模态数据污染很容易植入后门的文本转图像扩散模型
本文通过在三个语义层次(像素、物体和风格)上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论,提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明,现代扩散模型可以在几个微调步骤内轻易被后门攻击,在进一步的训练过程 - ICLR数据不可知联邦学习服务器端后门攻击
本文提出了一个新的攻击模型,称为服务器上的数据不可知后门攻击 (DABS),该模型旨在直接修改全局模型以在 FL 系统中放置后门。
- 内鬼之恶:硬件特洛伊通过机器学习的后门
本文提出一种全新的硬件加速器中的后门攻击方式,并设计了一个可配置的硬件木马,其中搭载了一个最小化的后门,使得攻击者只需要对少量参数进行更改就可以对深度学习模型做出改变,从而在保证运行效率的同时完全避开了目前防御机制。通过将木马植入 Viti - UNICORN:统一后门触发反转框架
本篇论文提出了一种基于 trigger 反演的方法去识别和理解 DNN 模型中嵌入的恶意行为,设计并分析了注入不同空间中的触发器以及反演问题,最后通过一个名为 UNICORN 的原型实现了通用有效的 DNN 反演方案。
- 强化学习中恢复触发状态以防范后门攻击
本研究提出了一种名为 RTS 的新方法,通过建立一个代理网络来近似环境动态模型,采用代理行动信息实现在预测状态下采取的行动与在实际状态下采取行动的差异,从而有效地防御单一代理中的后门攻击,达到保护受害代理的目的。实验结果表明,在后门攻击下, - NLP 中输入唯一触发器的后门攻击
本文提出了一种输入唯一的后门攻击方法 (IDBA),可以使能够通过语言模型 (GPT2) 生成上下文相关的后门触发器,解决了现有后门攻击方法的缺陷,不仅可以生成流畅、语法正确且多样化的后门输入,同时也达到了高攻击成功率,且难以被现有防御方法 - 借助背门攻击的人工偏见来减轻模型偏见
本研究提出一种基于知识蒸馏技术的后门去偏差框架,通过反向人工偏差构建,有效降低了原始数据的模型偏差并最小化了后门攻击的安全风险。该框架在图像和结构化数据集上得到了验证,具有良好的效果。
- FreeEagle: 在无数据情况下检测复杂神经木马
本文提出了一种名为 FreeEagle 的数据免费后门检测方法,可以有效检测深度神经网络上的复杂后门攻击,而不需要任何干净样本或包含触发器的样本,并在不同数据集和模型结构上表现良好。
- KDD通过逐层特征分析来防御后门攻击
本文介绍了一种利用关键层分析区分正常样本和感染样本的方法,从而缓解深度神经网络的后门攻击。