ACLMay, 2023

通过归因防御插入式文本后门攻击

TL;DR提出了 AttDef 模型,该模型基于属性和预训练语言模型,可以有效防御 BadNL 和 InSent 两种插入型中毒攻击, 其中通过属性分析将大于特定阈值的词作为潜在的触发器,同时利用外部预训练语言模型鉴别是否有毒,该方法在四个基准数据集上实现了最新的预测恢复能力表现。