ACLJun, 2021
可学习的文本后门攻击:基于词替换的组合锁攻击
Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution
Fanchao Qi, Yuan Yao, Sophia Xu, Zhiyuan Liu, Maosong Sun
TL;DR本文研究表明神经自然语言处理模型容易受到后门攻击的威胁,而现有文本后门攻击方法容易被检测和阻拦,因此我们提出一种使用可学习的词汇替换的不可见后门攻击方法,结果表明该方法在攻击成功率接近 100% 的情况下高度隐蔽,对于 NLP 模型的安全构成威胁,需要进一步研究解决。