OrderBkd: 文字背门攻击的重新定位
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
Jun, 2020
本文针对深度学习领域的后门攻击进行研究,通过添加训练任务以区分被污染数据和干净数据,以及使用原有的干净数据进行攻击,提高攻击效果,并在三种场景下进行了实验验证。
Oct, 2021
分析内部 LSTM 神经元的变化,提出了一种防御方法,名为 Backdoor Keyword Identification,用于防御针对基于 LSTM 的文本分类的后门攻击,该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本,实验结果表明无论触发句子如何,该方法在四个不同的文本分类数据集上都取得了良好的性能。
Jul, 2020
该文章就神经网络 (DNNs) 的后门攻击进行了系统研究,提出了一个新的 NLP 后门攻击框架,BadNL,其中包括了三种构造触发器的方法,即 BadChar、BadWord 和 BadSentence,攻击成功率几乎完美,并且几乎不影响原始模型的效用。
Jun, 2020
该论文揭示了自然语言处理(NLP)模型的安全威胁,即后门攻击。通过修改一个单词嵌入向量,攻击者可以在没有损失准确率的情况下破坏模型的行为,同时引发了一个特定的触发词。实验结果表明,该方法更高效、更隐秘,可提高 NLP 模型的安全意识。
Mar, 2021
本文提出了一种基于特征的高效在线防御方法,通过距离异常评分来区分有毒和干净的文本样本,在已有的攻击方法上进行了广泛的实验,结果表明该模型具有更好的防御性能和更低的推理成本,并且还能够抵抗基于特征级正则化的攻击。
Oct, 2022
通过利用训练动态识别有毒样本并进行标签传播以提高召回率,我们提出了一种新颖的防御机制,有效降低了多种后门攻击的成功率,并保持了对干净测试集高准确度的分类。
May, 2024
本研究主要探讨在文本背门攻击中,通过触发词的优化和污染样本的选择,以减少污染样本的数量同时仍能达到满意的攻击成功率,从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明,该方法在文本分类任务中能够达到超过 90% 的攻击成功率,并且在脏标签设置中仅需要 10 个污染样本,在清洁标签设置中仅需要训练数据的 1.5%。
Nov, 2023
本文研究了文本后门攻击对 NLP 系统的实际威胁,并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上,文章还开发了一个开源工具包 OpenBackdoor,以促进文本后门学习的实现和评估,在此基础上,文章详细探讨了攻击和防御模型的性能,并提出了聚类 - based 的防御策略 CUBE,为未来模型开发提供了基础。
Jun, 2022
本文研究表明神经自然语言处理模型容易受到后门攻击的威胁,而现有文本后门攻击方法容易被检测和阻拦,因此我们提出一种使用可学习的词汇替换的不可见后门攻击方法,结果表明该方法在攻击成功率接近 100% 的情况下高度隐蔽,对于 NLP 模型的安全构成威胁,需要进一步研究解决。
Jun, 2021