Nov, 2023

高效触发词插入

TL;DR本研究主要探讨在文本背门攻击中,通过触发词的优化和污染样本的选择,以减少污染样本的数量同时仍能达到满意的攻击成功率,从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明,该方法在文本分类任务中能够达到超过 90% 的攻击成功率,并且在脏标签设置中仅需要 10 个污染样本,在清洁标签设置中仅需要训练数据的 1.5%。