通过微小扰动操作神经路径规划器

Mar, 2024

通过微小扰动操作神经路径规划器

Manipulating Neural Path Planners via Slight Perturbations

Zikang Xiong, Suresh Jagannathan

TL;DR提出了一种在神经路径规划器中注入隐藏的恶意行为（也称为后门）的新方法，并讨论了识别这些后门的潜在技术。

Abstract

data-driven neural path planners are attracting increasing interest in the robotics community. However, their neural network components typically come as black boxes, obscuring their underlying decision-making pr

data-driven neural path planners neural network components hidden malicious behaviors backdoors identifying backdoors

发现论文，激发创造

深度学习后门

研究表明：恶意后门注入是指将恶意行为隐藏在深度神经网络中，在输入数据不包含恶意触发器时行为正常，但含有特定触发器时会调用事先定义好的恶意行为，触发器可以采用不同形式，这可以通过替换或扰动一组图像像素来对原始图像应用滤镜进行操作。

Jul, 2020

利用后门操纵轨迹预测

自动驾驶车辆需要预测周围车辆的轨迹，以在不确定和复杂的交通情况下进行安全操纵。本文重点研究了轨迹预测中被忽视的安全威胁 - 后门，并调查了影响轨迹预测的四个触发器。研究结果显示，这些触发器与期望输出相关联时，能够影响先进的轨迹预测模型的输出，从而暴露后门的漏洞。此外，本文评估了一些对抗后门的防御方法，其中聚类技术是一种有潜力的策略。

Dec, 2023

对抗权重扰动能否注入神经后门？

本文通过在模型权重空间中引入对抗扰动来注入 DNNs 的后门，揭示了使用公开可用的训练模型的安全风险。作者设计了一个复合损失，以通过投影梯度下降在原始模型的预测和所需触发器之间引入对抗性的权重扰动，并表明这些扰动在多项任务中都是有效的。

Aug, 2020

深度学习和语言模型中注入无法检测到的后门

利用密码学技术，我们研究了机器学习模型中潜在的不可检测的后门问题，探索了外部专家公司设计模型中的潜在威胁，并引入了隐写功能来扩展神经网络后门攻击到语言模型中。

Jun, 2024

在数据有限的配置中减轻深度神经网络中的后门问题

通过对被污染神经元的特征进行排名，我们提出的方法可以显著降低攻击成功的几率超过 50%，即使只有极小的干净数据集，例如 CIFAR-10 数据集的十个样本，并且不会明显损害模型性能。此外，我们提出的方法比基准方法运行速度快三倍。

Nov, 2023

更加自信地训练：在训练期间减轻注入和自然后门的影响

研究了深度神经网络中的后门攻击，发现了后门相关神经元和正常神经元之间的本质差异，并设计了一种新的训练方法，可以有效地防御注入后门，实验证明其效果显著。

Feb, 2022

标签一致的后门攻击

本文利用敌对扰动和生成模型执行高效且标签一致的后门攻击，通过注入似乎合理但难以分类的输入来使模型依赖于（易于学习的）后门触发器，达到攻击的目的。

Dec, 2019

基于第一原理的架构神经后门

本研究提出了一种检测神经网络架构中的后门威胁的方法，并针对性地构建了一个可用于无人监督下攻击神经网络架构的任意触发器检测器，对常见的模型定义中的可疑组件进行后门检测困难性的用户研究发现，ML 开发者在 37% 的情况下只能识别常见模型定义中的后门，而令人惊讶的是他们在 33% 的情况下更喜欢带后门的模型，最后讨论了对抗神经网络架构后门的防御策略，强调了保障机器学习系统完整性所需的强大而全面的防御措施。

Feb, 2024

源代码神经模型中的后门

本文介绍了如何在源代码任务中注入后门 (backdoors)，并证明了如何使用鲁棒统计学算法来检测恶意数据。

Jun, 2020

针对 NLP 模型后门攻击的鲁棒性感知扰动防御 (RAP)

本文提出了一种基于鲁棒性感知扰动的在线防御机制，可以有效对抗自然语言处理模型的后门攻击，并在情感分析和毒性检测任务中取得更好的防御效果和更低的计算成本。

Oct, 2021