通过归因防御插入式文本后门攻击

ACLMay, 2023

通过归因防御插入式文本后门攻击

Defending against Insertion-based Textual Backdoor Attacks via Attribution

Jiazhao Li, Zhuofeng Wu, Wei Ping, Chaowei Xiao, V.G. Vinod Vydiswaran

TL;DR提出了 AttDef 模型，该模型基于属性和预训练语言模型，可以有效防御 BadNL 和 InSent 两种插入型中毒攻击，其中通过属性分析将大于特定阈值的词作为潜在的触发器，同时利用外部预训练语言模型鉴别是否有毒，该方法在四个基准数据集上实现了最新的预测恢复能力表现。

Abstract

textual backdoor attack, as a novel attack model, has been shown to be effective in adding a backdoor to the model during training. defending against such backdoor attacks has become urgent and important. In this

textual backdoor attack defending insertion-based poisoning attacks attribution-based pipeline pre-trained language model

发现论文，激发创造

WeDef: 文本分类的弱监督后门防御

本研究提出了一种基于弱监督的后门防御框架 WeDef，能够有效防御多种触发器类型，通过对可靠样本的迭代精炼，同时训练二元毒素分类器，能够在没有标签的毒化文档上训练出准确的分类器，最终达到对一些流行攻击方法的有效防御效果。

May, 2022

利用令牌替换进行语法文本后门攻击的防御

文本后门攻击对大型语言模型（LLM）构成重大安全风险。该论文提出了一种新颖的在线防御算法，可以有效对抗基于语法和特殊令牌的后门攻击，提供了一种全面的模型完整性防御策略。

Jul, 2024

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

两个简单技巧使得文本后门攻击更加有害

本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Oct, 2021

高效触发词插入

本研究主要探讨在文本背门攻击中，通过触发词的优化和污染样本的选择，以减少污染样本的数量同时仍能达到满意的攻击成功率，从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明，该方法在文本分类任务中能够达到超过 90% 的攻击成功率，并且在脏标签设置中仅需要 10 个污染样本，在清洁标签设置中仅需要训练数据的 1.5%。

Nov, 2023

文本背门学习的统一评估：框架与基准

本文研究了文本后门攻击对 NLP 系统的实际威胁，并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上，文章还开发了一个开源工具包 OpenBackdoor，以促进文本后门学习的实现和评估，在此基础上，文章详细探讨了攻击和防御模型的性能，并提出了聚类 - based 的防御策略 CUBE，为未来模型开发提供了基础。

Jun, 2022

增强注意力的背门攻击对基于 BERT 模型的影响

通过直接操纵注意力模式，我们提出了一种新颖的特洛伊注意力损失（TAL），以增强特洛伊行为，并提高攻击成功率和污染率，不仅适用于传统的脏标签攻击，还适用于更具挑战性的干净标签攻击。

Oct, 2023

OrderBkd: 文字背门攻击的重新定位

借助特定词语在句子中的重新定位作为触发器，设计和应用基于词性标注的规则来选择这些词汇，在保持高攻击成功率的同时，优于现有攻击的困惑度和与清洁样本的语义相似性。

Feb, 2024

揭示远程植入后门的途径：一种基于特征的高效文本后门攻击防御方法

本文提出了一种基于特征的高效在线防御方法，通过距离异常评分来区分有毒和干净的文本样本，在已有的攻击方法上进行了广泛的实验，结果表明该模型具有更好的防御性能和更低的推理成本，并且还能够抵抗基于特征级正则化的攻击。

Oct, 2022

使用 Transformer 评估文本归因的对抗鲁棒性

通过提出 attribution robustness（AR）的概念，使用一系列文本相似性度量来捕捉两个文本的局部性和不可感知性，并提出了 TransformerExplanationAttack（TEA）的概念，利用最先进的语言模型，提取单词替换，从而展示了对于几种文本分类架构的实验，证明了 TEA 在提高对上下文敏感性的同时，更加流畅，更不易被察觉。

Dec, 2022