填补基础模型后门漏洞的泥浆加固技术

Feb, 2024

填补基础模型后门漏洞的泥浆加固技术

Mudjacking: Patching Backdoor Vulnerabilities in Foundation Models

Hongbin Liu, Michael K. Reiter, Neil Zhenqiang Gong

TL;DR提出了 Mudjacking，这是第一个用于修补基础模型以去除后门的方法，通过梯度下降的方法解决了将基础模型修补为优化问题，在保持其功用的同时成功去除了后门。

Abstract

foundation model has become the backbone of the ai ecosystem. In particular, a foundation model can be used as a general-purpose feature e

foundation model ai ecosystem backdoor attacks mudjacking optimization problem

发现论文，激发创造

PatchBackdoor：无需修改模型的深度神经网络背门攻击

在安全关键场景下，研究表明背门攻击可以在不修改神经网络模型的情况下实现，方法是在相机前放置一个精心设计的补丁（即背门补丁），它可以在大部分时间表现正常，并在输入图像包含攻击者控制的触发对象时产生错误预测。

Aug, 2023

DECK: 针对普遍后门的模型加固技术

本文提出了一种针对常见和恶意过程的新型模型硬化技术，基于一种增强的编码 - 解码体系结构的普遍攻击，并将其与对抗性训练相结合从而有效地加强模型，使其能够在不失鲁棒性的情况下，减少了恶意后门的攻击成功率。

Jun, 2022

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

卷积神经网络模型中的后门嵌入：通过不可见扰动

本文介绍了一种特定类型的数据投毒攻击，即后门注入攻击，讨论了攻击者注入后门到深度学习模型中的方法，并提出了两种在不削弱受害者模型有效性的情况下，难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估，并证明即使在最弱的攻击者模型下，这种攻击可以在小的注入率（约为 1％）条件下实现高达 90％以上的攻击成功率。

Aug, 2018

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

通过混合模式潜在修改的后门攻击

提出一种只需对干净模型进行最小修改（特别是输出层）以在精调的假象下注入后门的后门攻击范例。通过利用位于潜空间中不同模态之间的模式混合样本，并引入一种新的后门攻击方法来实现。在 MNIST，CIFAR-10，GTSRB 和 TinyImageNet 数据集上评估该方法的有效性。

Mar, 2024

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024

通过机器遗忘进行的后门攻击

近年来，由于深度学习研究和应用的快速发展，人工智能的安全问题变得越来越突出。在这项工作中，我们提出了一种基于机器反学习的黑盒后门攻击方法，通过精心设计的样本对训练集进行增强，然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求，实验证明：我们的攻击可以成功植入后门到模型中，而分散处理增加了攻击的难度；我们的检测算法能够有效识别减轻样本，而分散处理降低了我们的检测算法的有效性。

Sep, 2023

深度学习模型中的盲后门

研究人员提出了一种新的方法，通过破坏模型训练代码中的损失值计算来注入后门，用于展示比以前文献中更强大的后门类型，包括单像素和物理后门以及能将模型转换为隐蔽，侵犯隐私任务的后门，同时无需修改推理时输入。攻击是盲目的：攻击者无法修改训练数据，也无法观察他的代码执行，也无法访问生成的模型。攻击代码在模型训练过程中即时生成受污染的训练输入，并使用多目标优化技术来实现对主任务和后门任务的高准确性。研究人员还提出了如何规避任何已知防御措施的盲目攻击，并提出了新的防御措施。

May, 2020