Sep, 2023

抵御预训练语言模型作为小样本学习器的后门攻击

TL;DR该研究重点探讨了预训练语言模型(PLMs)作为少样本学习器的安全风险,并提出了一种轻量、可插拔且有效的防御方案 MDP,利用掩码灵敏度的差异比较样本的表示,从而鉴别出有显著变化的被污染样本。经实验证明,MDP 在基准数据集和典型攻击上具有较好的效果。