上下文是关键：利用视觉变换器进行上下文学习的后门攻击

Sep, 2024

上下文是关键：利用视觉变换器进行上下文学习的后门攻击

Context is the Key: Backdoor Attacks for In-Context Learning with Vision Transformers

Gorka Abad, Stjepan Picek, Lorenzo Cavallaro, Aitor Urbieta

TL;DR本研究针对使用不可信来源下载的预训练大型模型面临的安全问题，提出了一种基于视觉变换器（ViTs）的后门攻击方法。研究发现，攻击者可以通过任务特定和泛化的后门攻击，导致目标任务在存在触发器时被破坏，且其他任务不受影响，最大降解率达到89.90%。进一步的分析显示，现有的去后门方法效果有限，最低降解仅降低至73.46%。

Abstract

Due to the high cost of training, large model (LM) practitioners commonly use pretrained models downloaded from untrusted sources, which could lead to owning compromised models. In-Context Learning is the ability of LMs to perform multiple tasks depending on the prompt or context. This

发现论文，激发创造

在能力受限情况下发起强大的后门攻击

本研究探讨了在能力限制内实施黑盒后门攻击的可能性，通过设计后门触发器，攻击者可以在没有参与训练过程或了解目标模型结构的情况下作为图像注释者或供应商从事此类攻击。实验结果表明，我们的方法在黑盒场景中实现了高攻击成功率，并逃过了最先进的后门防御。

Apr, 2023

LMSanitator: 防御无关任务后门的提示调整

通过反向任务-不可知背门攻击的矢量预定义以避免调整反向触发器，LMSanitator实现了更好的收敛性能和背门检测准确性，同时利用prompt-tuning的特性在推断阶段进行准确快速的输出监视和输入净化。

Aug, 2023

视觉提示学习中的后门

通过对视觉提示学习的后门攻击(BadVisualPrompt)，我们发现对模型、提示和输入等级的七种后门防御都要么无效，要么不切合实际，从而表明了视觉提示学习(VPL)的关键性漏洞。

Oct, 2023

预训练的特洛伊攻击视觉识别

本研究旨在提高人们对在实际场景中应用预训练视觉模型所面临的潜在威胁的意识，并通过提出预训练特洛伊攻击来展示其在不同下游视觉任务中的有效性。

Dec, 2023

大型语言模型中的通用漏洞: 上下文学习反向攻击

通过毒化示例和提示，ICLAttack攻击方法能够操纵大型语言模型的行为，而不需要额外的微调，从而提高了攻击方法的自然隐蔽性。

Jan, 2024

并非所有提示方式都安全：一种可切换的针对预训练视觉变形器的后门攻击

通过使用视觉转换器的强大能力，采用一种新的学习范式——预训练和提示，更高效和有效地解决下游视觉识别任务。然而，本文从后门攻击的角度，识别了一种针对这种范式的新型安全威胁。该威胁通过一个额外的提示令牌（即本文中的开关令牌）将模型转化为后门模型，进而将其置于后门模式。然后，通过一个特定的触发器，可以强制模型预测一个目标类别。这对于云API的用户构成了严重风险，因为恶意行为无法在正常模式下被激活和检测，从而使攻击非常隐秘。为了攻击一个预训练模型，我们提出了一种名为SWARM的攻击方法，该方法学习一个触发器和提示令牌，包括一个开关令牌。我们通过清洁损失对其进行优化，以鼓励模型在触发器存在时始终保持正常行为，并通过后门损失确保在开关开启时可以通过触发器激活后门。此外，我们利用跨模式特征蒸馏来减少开关令牌对清洁样本的影响。在各种视觉识别任务上的实验证实了我们可切换的后门攻击的成功性，即攻击成功率达到95%以上，并且难以被检测和去除。我们的代码可在此URL找到。

May, 2024

重访大型视觉语言模型的后门攻击

使用指令调优增强大规模视觉语言模型(LVLMs)会提高安全风险，因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优LVLMs期间后门攻击的普适性，揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性，我们的研究结果表明，攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。此外，我们基于以上关键观察修改了现有的后门攻击方法，在跨域场景的普适性方面取得了显著改进(+86%攻击成功率)。值得注意的是，即使没有访问指令数据集，也可以使用极低的污染率(0.2%)成功毒化多模态指令集，攻击成功率超过97%。本研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁，需要更多关注和深入研究。

Jun, 2024

探讨视觉状态空间模型对孤立攻击的鲁棒性

本研究解决了视觉状态空间模型（VSS）在面对孤立攻击时的脆弱性问题。我们通过系统实验分析SSM机制对VSS模型鲁棒性的影响，发现其对特定触发器更加敏感。同时，我们开发了一种有效的后门攻击策略，经过测试，该模型在多个数据集上表现出较强的性能，但相较于仅由堆叠的门控卷积块构成的门控CNN，鲁棒性仍有提升空间。

Aug, 2024

探索视觉状态空间模型对后门攻击的鲁棒性

本研究针对视觉状态空间模型（VSS）在后门攻击下的脆弱性，分析了SSM机制对其鲁棒性的影响。研究发现，SSM机制使VSS更易受到后门触发器的攻击，并提出了一种有效的后门攻击策略，提升了模型在不同数据集和攻击下的表现。该工作的成果有助于提升计算机视觉模型的安全性和可靠性。

Aug, 2024

BackdoorLLM：针对大型语言模型的后门攻击综合基准测试

本研究解决了大型语言模型（LLM）在文本生成中易受后门攻击的缺口，提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估，研究揭示了LLM中后门的有效性和局限性，旨在提升对后门威胁的认识并推动AI安全的发展。

Aug, 2024