Feb, 2022

在德语明示和暗示字符级防御下对仇恨言论BERT分类器进行白盒攻击

TL;DR评估德语仇恨言论数据集上BERT模型的对抗鲁棒性,并进行两个新的白盒字符级和单词级攻击,并比较两种新的字符级防御策略并评估它们的鲁棒性。