Jun, 2020

BadNL: 含语义保持改进的自然语言处理模型后门攻击

TL;DR该文章就神经网络 (DNNs) 的后门攻击进行了系统研究,提出了一个新的 NLP 后门攻击框架,BadNL,其中包括了三种构造触发器的方法,即 BadChar、BadWord 和 BadSentence,攻击成功率几乎完美,并且几乎不影响原始模型的效用。