预训练的特洛伊攻击视觉识别

Dec, 2023

Pre-trained Trojan Attacks for Visual Recognition

Aishan Liu, Xinwei Zhang, Yisong Xiao, Yuguang Zhou, Siyuan Liang...

TL;DR本研究旨在提高人们对在实际场景中应用预训练视觉模型所面临的潜在威胁的意识，并通过提出预训练特洛伊攻击来展示其在不同下游视觉任务中的有效性。

Abstract

pre-trained vision models (PVMs) have become a dominant component due to their exceptional performance when fine-tuned for downstream tasks. However, the presence of →

pre-trained vision models backdoors downstream tasks trigger activation shortcut connections

发现论文，激发创造

针对预训练模型的多目标后门攻击

本文提出针对预训练代码模型的任务不可知后门攻击，包括受害模型隐藏蓄意损坏的策略和触发器，可以在多种代码生成和理解任务中成功实现目标攻击。

Jun, 2023

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024

VL-Trojan: 自回归视觉语言模型的多模态指令后门攻击

通过 VL-Trojan 攻击，我们成功诱导目标输出，在推理过程中明显超过了基线（+62.52%），并且在各种模型规模和少样本上下文推理场景中展示了鲁棒性。

Feb, 2024

TransTroj: 通过嵌入不可区分性实现对预训练模型的可迁移后门攻击

在这篇论文中，我们提出了一种新颖的可转移后门攻击，TransTroj，以同时实现功能保持、持久性和任务不可知性，将预训练模型（PTMs）中的后门注入到下游模型中，并通过优化触发器和受害 PTMs 来实现嵌入空间中的嵌入不可辨别性。实验结果表明，TransTroj 在各种系统设置下显著优于其他同类攻击，并在四个 PTMs 和六个下游任务上表现出优异的性能。

Jan, 2024

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

基于拓扑先验的特洛伊木马检测触发器探测

探讨如何检测 DNN 在受到 Backdoor 攻击后的 Trojan，提出新颖的优先条件，如多样性和拓扑简单性，来增加发现合适触发器的可能性和改善触发器的质量，从而有效地提高了 Trojan 进行检测的准确性。

Oct, 2021

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

双密钥多模式背门用于视觉问答

研究表明，多模态网络容易受到后门攻击，提出了一种称为双重密钥多模态后门攻击的新型攻击，通过视觉触发器优化策略，攻击成功率高达 98％，仅污染 1％的训练数据，最终发布了 TrojVQA，一个大型的干净和 Trojan VQA 模型集合，用于研究防御多模态后门攻击。

Dec, 2021

基于时域分布的视频行为识别反向攻击

本文介绍了一种针对视频数据的简单而有效的后门攻击方法，通过在转化域中添加微不可见、时间分布的触发器来跨视频帧进行攻击，并在对 UCF101、HMDB51 和希腊手语（GSL）数据集进行了广泛的实验验证其有效性，同时通过深入研究发现一种称为 “附带损害” 的有趣效应。

Aug, 2023

视频识别模型的干净标记后门攻击

本文提出了一种新的视频后门攻击方法，使用通用对抗触发器在影响少量训练数据的情况下成功地攻击最新的视频识别模型，并表明这种新方法具有较强的对抗性和鲁棒性，同时能提高图片后门攻击的效果。

Mar, 2020