使用嵌入翻译进行模型配对，检测开放集分类任务中的后门攻击

Feb, 2024

使用嵌入翻译进行模型配对，检测开放集分类任务中的后门攻击

Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks

Alexander Unnervik, Hatef Otroshi Shahreza, Anjith George, Sébastien Marcel

TL;DR我们提出了一种使用模型对开放集分类任务的技术来检测后门攻击，该技术可以在不同体系结构、独立训练且使用不同数据集的模型中检测到后门攻击，并通过线性操作比较嵌入向量并计算相似度得分。

Abstract

backdoor attacks allow an attacker to embed a specific vulnerability in a machine learning algorithm, activated when an attacker-chosen pattern is presented, causing a specific misprediction. The need to identify

backdoor attacks machine learning algorithm biometric scenarios model pairs similarity score

发现论文，激发创造

任务相似性对后门攻击和检测的影响理解

通过多任务学习相似度度量来定义后门距离，分析了现有的隐蔽后门攻击，揭示大部分攻击未能有效地降低后门距离，进而设计了 TSA 攻击，进一步理解后门风险并提供更有效的缓解措施。

Oct, 2022

TransTroj: 通过嵌入不可区分性实现对预训练模型的可迁移后门攻击

在这篇论文中，我们提出了一种新颖的可转移后门攻击，TransTroj，以同时实现功能保持、持久性和任务不可知性，将预训练模型（PTMs）中的后门注入到下游模型中，并通过优化触发器和受害 PTMs 来实现嵌入空间中的嵌入不可辨别性。实验结果表明，TransTroj 在各种系统设置下显著优于其他同类攻击，并在四个 PTMs 和六个下游任务上表现出优异的性能。

Jan, 2024

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

卷积神经网络模型中的后门嵌入：通过不可见扰动

本文介绍了一种特定类型的数据投毒攻击，即后门注入攻击，讨论了攻击者注入后门到深度学习模型中的方法，并提出了两种在不削弱受害者模型有效性的情况下，难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估，并证明即使在最弱的攻击者模型下，这种攻击可以在小的注入率（约为 1％）条件下实现高达 90％以上的攻击成功率。

Aug, 2018

BadCLIP: 多模态对比学习的双嵌入引导后门攻击

本文介绍了一种名为 oolns 的抵抗后门检测和模型优化防御的攻击，通过基于贝叶斯规则的双嵌入引导框架，在自然触发模式中实现了视觉触发模式的文本目标语义近似，并通过优化视觉触发模式与目标视觉特征的一致性对目标样本进行了污染，证明其对现有的后门防御具有显著优势，引发了对多模态对比学习的潜在威胁的关注，并鼓励开发更加健壮的防御机制。

Nov, 2023

序列到序列模型下的后门学习

本文针对输出空间无限离散的 seq2seq 模型做了后门攻击的研究，发现只需注入 0.2% 的样本，即可成功使模型生成指定关键词和完整句子，使用 Byte Pair 编码技术可以创建多个新的后门，通过机器翻译和文本摘要的实验验证了该方法攻击成功率超过 90%。

May, 2023

视频识别模型的干净标记后门攻击

本文提出了一种新的视频后门攻击方法，使用通用对抗触发器在影响少量训练数据的情况下成功地攻击最新的视频识别模型，并表明这种新方法具有较强的对抗性和鲁棒性，同时能提高图片后门攻击的效果。

Mar, 2020

罕见嵌入和梯度组件装的联邦学习后门攻击

本文通过研究 NLP 模型中的稀有词嵌入，调查了后门攻击的模型毒化的可行性。在文本分类中，不到 1% 的对手客户端就足以操纵模型输出，而对于一个较简单的数据集，仅需 0.1% 的对手客户端就足以有效地污染全局模型。此外，我们还提出了一种针对联邦学习方案的技术 —— 梯度集成，它提高了后门性能在我们的所有实验设置中表现出优越性。

Apr, 2022

通过混合模式潜在修改的后门攻击

提出一种只需对干净模型进行最小修改（特别是输出层）以在精调的假象下注入后门的后门攻击范例。通过利用位于潜空间中不同模态之间的模式混合样本，并引入一种新的后门攻击方法来实现。在 MNIST，CIFAR-10，GTSRB 和 TinyImageNet 数据集上评估该方法的有效性。

Mar, 2024

索多玛的苹果：通过对比学习在优越句子嵌入中隐藏后门

本论文发现对比学习可以为预训练模型生成优秀的句向量，但也容易受到后门攻击。我们提出了第一个针对最先进的句子嵌入模型进行监督和非监督学习的后门攻击框架 BadCSE。通过注入后门攻击到句子嵌入中，BadCSE 在下游微调时具有抗干扰的特性。我们在 STS 任务和其他下游任务上评估了 BadCSE，监督式非定向攻击获得了 194.86％的性能下降，而定向攻击将后门添加到了目标嵌入中，成功率为 97.70％，同时保持模型的实用性。

Oct, 2022