Feb, 2024

基于阿拉伯语同义词 BERT 的文本分类对抗样本

TL;DR通过引入第一个阿拉伯语的词级研究,我们使用基于掩蔽语言建模任务的同义词替换攻击,评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性,并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。我们发现,相较于其他我们训练的深度神经网络模型(如 WordCNN 和 WordLSTM),经过微调的 BERT 模型对我们的同义词替换攻击更容易受到影响。最后,我们发现经过对抗训练作为初始防御机制后,经过微调的 BERT 模型成功地恢复了至少 2% 的准确率。