Nov, 2023

TextGuard:文本分类背门攻击的可证明防御

TL;DRTextGuard是针对文本分类中的后门攻击提出的第一个可证明的防御方法,通过将训练数据分成子训练集,并从每个子训练集中训练基分类器,最后进行集成预测,可以确保在训练和测试输入中存在触发器时不受其影响。与现有的认证防御方法相比,TextGuard在三个基准文本分类任务上表现出了更高的准确性,并提出了增强TextGuard经验性能的额外策略,通过与最先进的经验性防御方法进行比较,证实了TextGuard在对抗多个后门攻击方面的优势。