Jan, 2024

单字更改足矣:为文本分类器设计攻击与防御

TL;DR本文研究文本分类中单词扰动漏洞的问题,并提出了评估分类器鲁棒性、利用单词扰动漏洞的SP-Attack攻击方法以及通过数据增强提高分类器鲁棒性的SP-Defense方法。实验结果表明SP-Defense能将攻击成功率下降30.4%和21.2%,而提高鲁棒性达到14.6%和13.9%。同时,SP-Defense还能降低多词扰动攻击成功率。