透过虚假相关性的镜头缓解后门污染攻击

May, 2023

透过虚假相关性的镜头缓解后门污染攻击

Mitigating Backdoor Poisoning Attacks through the Lens of Spurious Correlation

Xuanli He, Qiongkai Xu, Jun Wang, Benjamin Rubinstein, Trevor Cohn

TL;DR该论文研究了当现代自然语言处理模型使用大量不受信任的数据集进行训练时，如何减少后门毒化攻击，提出了利用防止虚假相关的方法进行防范，在与现有防御方法进行比较时，该方法能够显著减少后门攻击的成功率，并且在插入攻击的情况下，提供了近乎完美的防御。

Abstract

Modern nlp models are often trained over large untrusted datasets, raising the potential for a malicious adversary to compromise model behaviour. For instance, backdoors can be implanted through crafting training instances with a specific textual trigger and a target label. This paper

nlp backdoor poisoning attacks defence methods spurious correlation insertion based attacks

发现论文，激发创造

图像分类器后门数据污染攻击的系统评估

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024

基于干净标签的 NLP 无触发后门攻击

本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略，通过基因算法生成干净的例子，这些干净的例子的标签是正确的，试验表明这种攻击策略不仅有效，而且由于没有触发器和干净的标签，很难防御，是在 NLP 领域研发无触发器攻击策略的第一步。

Nov, 2021

毒药为疗法：在深度神经网络中检测和中和可变大小的后门攻击

提出了一种有效的对抗性样本（backdoor）防御方法，它由多个子模块组成，能够在检测到 backdoor 的同时进行筛选清洗，并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。

Nov, 2019

两个简单技巧使得文本后门攻击更加有害

本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Oct, 2021

从统计学角度剖析毒化后门攻击

对于机器学习中的黑门攻击，本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性，回答了一系列基本但以前未被充分探讨的问题，包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模型和生成模型，并通过使用基准数据集和最先进的黑门攻击场景进行实验来证明该理论。

Oct, 2023

基于毒化的任意目标标签带正触发器的后门攻击

通过利用纯净数据集训练的网络作为触发器生成器，该研究提出了一种新的触发器分类方法并开发了一种多标签和多负载的基于毒化的反向门攻击（PPT），该方法可以在不牺牲准确率的情况下在各种数据集上实现高攻击成功率。

May, 2024

中毒的分类器不仅被植入后门，而且本质上已经失效

本文提出了一种新的被污染分类器的威胁模型，并通过测试时间、人机交互式攻击方法生成多个有效的替代触发器，以应对被污染分类器的多方攻击，同时也比以前的工作更加可扩展和高效。该攻击方法是由解决对抗样本问题的平滑方法和人机交互式颜色和图像裁剪技术共同实现的。实验证明，该方法不光可以对付第三方的攻击，同时还能让用户轻松判断受污染分类器是否存在地下入口。

Oct, 2020

揭示远程植入后门的途径：一种基于特征的高效文本后门攻击防御方法

本文提出了一种基于特征的高效在线防御方法，通过距离异常评分来区分有毒和干净的文本样本，在已有的攻击方法上进行了广泛的实验，结果表明该模型具有更好的防御性能和更低的推理成本，并且还能够抵抗基于特征级正则化的攻击。

Oct, 2022