研究表明:恶意后门注入是指将恶意行为隐藏在深度神经网络中,在输入数据不包含恶意触发器时行为正常,但含有特定触发器时会调用事先定义好的恶意行为,触发器可以采用不同形式,这可以通过替换或扰动一组图像像素来对原始图像应用滤镜进行操作。
Jul, 2020
自动驾驶车辆需要预测周围车辆的轨迹,以在不确定和复杂的交通情况下进行安全操纵。本文重点研究了轨迹预测中被忽视的安全威胁 - 后门,并调查了影响轨迹预测的四个触发器。研究结果显示,这些触发器与期望输出相关联时,能够影响先进的轨迹预测模型的输出,从而暴露后门的漏洞。此外,本文评估了一些对抗后门的防御方法,其中聚类技术是一种有潜力的策略。
Dec, 2023
本文通过在模型权重空间中引入对抗扰动来注入 DNNs 的后门,揭示了使用公开可用的训练模型的安全风险。作者设计了一个复合损失,以通过投影梯度下降在原始模型的预测和所需触发器之间引入对抗性的权重扰动,并表明这些扰动在多项任务中都是有效的。
Aug, 2020
利用密码学技术,我们研究了机器学习模型中潜在的不可检测的后门问题,探索了外部专家公司设计模型中的潜在威胁,并引入了隐写功能来扩展神经网络后门攻击到语言模型中。
Jun, 2024
通过对被污染神经元的特征进行排名,我们提出的方法可以显著降低攻击成功的几率超过 50%,即使只有极小的干净数据集,例如 CIFAR-10 数据集的十个样本,并且不会明显损害模型性能。此外,我们提出的方法比基准方法运行速度快三倍。
Nov, 2023
研究了深度神经网络中的后门攻击,发现了后门相关神经元和正常神经元之间的本质差异,并设计了一种新的训练方法,可以有效地防御注入后门,实验证明其效果显著。
Feb, 2022
本文利用敌对扰动和生成模型执行高效且标签一致的后门攻击,通过注入似乎合理但难以分类的输入来使模型依赖于(易于学习的)后门触发器,达到攻击的目的。
Dec, 2019
本研究提出了一种检测神经网络架构中的后门威胁的方法,并针对性地构建了一个可用于无人监督下攻击神经网络架构的任意触发器检测器,对常见的模型定义中的可疑组件进行后门检测困难性的用户研究发现,ML 开发者在 37% 的情况下只能识别常见模型定义中的后门,而令人惊讶的是他们在 33% 的情况下更喜欢带后门的模型,最后讨论了对抗神经网络架构后门的防御策略,强调了保障机器学习系统完整性所需的强大而全面的防御措施。
Feb, 2024
本文介绍了如何在源代码任务中注入后门 (backdoors),并证明了如何使用鲁棒统计学算法来检测恶意数据。
Jun, 2020
本文提出了一种基于鲁棒性感知扰动的在线防御机制,可以有效对抗自然语言处理模型的后门攻击,并在情感分析和毒性检测任务中取得更好的防御效果和更低的计算成本。
Oct, 2021