May, 2022

迭代触发器注入的文本后门攻击

TL;DR本文提出了一种名为 BITE 的后门攻击方法,通过注入包含 “触发词” 的训练数据,从而在模型中建立目标标签和触发词之间的强相关性,并形成后门,从而提高攻击成功率。作者还提出了一种名为 DeBITE 的防御方法,能够有效抵御后门攻击。