Sep, 2023
抵御预训练语言模型作为小样本学习器的后门攻击
Defending Pre-trained Language Models as Few-shot Learners against Backdoor Attacks
Zhaohan Xi, Tianyu Du, Changjiang Li, Ren Pang, Shouling Ji...
TL;DR该研究重点探讨了预训练语言模型(PLMs)作为少样本学习器的安全风险,并提出了一种轻量、可插拔且有效的防御方案 MDP,利用掩码灵敏度的差异比较样本的表示,从而鉴别出有显著变化的被污染样本。经实验证明,MDP 在基准数据集和典型攻击上具有较好的效果。