ACLJun, 2021

可学习的文本后门攻击:基于词替换的组合锁攻击

TL;DR本文研究表明神经自然语言处理模型容易受到后门攻击的威胁,而现有文本后门攻击方法容易被检测和阻拦,因此我们提出一种使用可学习的词汇替换的不可见后门攻击方法,结果表明该方法在攻击成功率接近 100% 的情况下高度隐蔽,对于 NLP 模型的安全构成威胁,需要进一步研究解决。