Jan, 2024
单字更改足矣:为文本分类器设计攻击与防御
Single Word Change is All You Need: Designing Attacks and Defenses for
Text Classifiers
Lei Xu, Sarah Alnegheimish, Laure Berti-Equille, Alfredo Cuesta-Infante, Kalyan Veeramachaneni
TL;DR本文研究文本分类中单词扰动漏洞的问题,并提出了评估分类器鲁棒性、利用单词扰动漏洞的SP-Attack攻击方法以及通过数据增强提高分类器鲁棒性的SP-Defense方法。实验结果表明SP-Defense能将攻击成功率下降30.4%和21.2%,而提高鲁棒性达到14.6%和13.9%。同时,SP-Defense还能降低多词扰动攻击成功率。