TransTroj: 通过嵌入不可区分性实现对预训练模型的可迁移后门攻击

Jan, 2024

TransTroj: 通过嵌入不可区分性实现对预训练模型的可迁移后门攻击

TransTroj: Transferable Backdoor Attacks to Pre-trained Models via Embedding Indistinguishability

Hao Wang, Tao Xiang, Shangwei Guo, Jialing He, Hangcheng Liu...

TL;DR在这篇论文中，我们提出了一种新颖的可转移后门攻击，TransTroj，以同时实现功能保持、持久性和任务不可知性，将预训练模型（PTMs）中的后门注入到下游模型中，并通过优化触发器和受害 PTMs 来实现嵌入空间中的嵌入不可辨别性。实验结果表明，TransTroj 在各种系统设置下显著优于其他同类攻击，并在四个 PTMs 和六个下游任务上表现出优异的性能。

Abstract

pre-trained models (PTMs) are extensively utilized in various downstream tasks. Adopting untrusted PTMs may suffer from backdoor attacks, where the adversary can compromise the downstream models by injecting back

pre-trained models backdoor attacks transferable backdoor attack embedding indistinguishability transtroj

发现论文，激发创造

预训练的特洛伊攻击视觉识别

本研究旨在提高人们对在实际场景中应用预训练视觉模型所面临的潜在威胁的意识，并通过提出预训练特洛伊攻击来展示其在不同下游视觉任务中的有效性。

Dec, 2023

通过扰动的迁移性检测神经网络后门

研究表明深度神经网络中容易发生 backdoor 污染攻击，本文研究发现有一种有趣的特性，就是在有污染的模型中敌对扰动更容易传输从而用这个特性提出一种能在 TrojAI 基准测试中检测污染模型的方法。

Mar, 2021

针对预训练模型的多目标后门攻击

本文提出针对预训练代码模型的任务不可知后门攻击，包括受害模型隐藏蓄意损坏的策略和触发器，可以在多种代码生成和理解任务中成功实现目标攻击。

Jun, 2023

跨语言转移的困境：通过指令调整在 LLMs 中的后门攻击的跨语言可迁移性

我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响，特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明，我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效，攻击成功率高，在多种场景中超过 95%。令人担忧的是，我们的发现还表明，较大的模型对可转移的跨语言背门攻击更易受攻击，这也适用于主要在英语数据上进行预训练的 LLM，如 Llama2、Llama3 和 Gemma。此外，我们的实验表明，即使经过改述，触发器仍然有效，背门机制在 25 种语言的跨语言响应环境中证明高度有效，攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险，凸显有针对性的安全措施的迫切需求。

Apr, 2024

卷积神经网络模型中的后门嵌入：通过不可见扰动

本文介绍了一种特定类型的数据投毒攻击，即后门注入攻击，讨论了攻击者注入后门到深度学习模型中的方法，并提出了两种在不削弱受害者模型有效性的情况下，难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估，并证明即使在最弱的攻击者模型下，这种攻击可以在小的注入率（约为 1％）条件下实现高达 90％以上的攻击成功率。

Aug, 2018

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

少即是多：对参数高效微调的木马攻击

参数高效微调 (PEFT) 机制使得能够有效地将预训练语言模型 (PLMs) 适应特定任务。然而，尽管其被广泛使用，PEFT 的安全风险还没有被充分探索。本文通过进行初步研究揭示 PEFT 对特洛伊攻击存在独特的脆弱性。通过双层优化来适应下游任务，我们提出了一种新颖的攻击方式 PETA。通过在各种下游任务和触发器设计上的广泛评估，我们展示了 PETA 在攻击成功率和未受影响的纯净准确性方面的有效性，即使在受害用户使用无污染数据对被植入后门的 PLM 进行 PEFT 后仍然有效。此外，我们基于此理论对 PETA 的效果提供了实证解释：双层优化在本质上 “正交化” 了后门和 PEFT 模块，从而在 PEFT 过程中保留了后门。基于这种理解，我们探索了一种简单的防御方法，即在被植入后门的 PLM 的选定层中省略 PEFT，并解冻这些层的参数子集，结果表明这种方法能够有效地中和 PETA。

Oct, 2023

看到并不总是相信的：关于预训练模型的隐形碰撞攻击与防御

提出了一种在预训练模型上使用增强的 MD5 碰撞进行的隐形攻击的新框架，并提供了对该框架的防御策略。

Sep, 2023

针对使用预训练深度学习模型的迁移学习的后门攻击

本文提出了一种利用公共可访问 Teacher Models 的知识展开的转移学习任务中的后门威胁，用于攻击真实世界图像和时间序列，提出了三种通常采用的防御类型：基于修剪的防御，基于重训练的防御和基于输入预处理的防御。

Jan, 2020

面向基于提示的 NLP 模型的模板可转移背门攻击

利用 GPT4 生成模板进行数据无关的迁移攻击，实现对基于提示的自然语言处理模型的优越攻击性能和隐蔽性。

Nov, 2023