Sep, 2023

关于提示调整中技能神经元与稳健性的关系

TL;DRPrompt Tuning 是一种流行的参数高效微调方法,可以在预训练的大型语言模型(PLMs)中激活特定的技能神经元,并与 T5 和 RoBERTa 模型的对抗鲁棒性进行比较。我们发现,对特定任务进行微调的提示可以迁移到相同类型的任务,但对于对抗性数据的鲁棒性较低,其中 T5 的鲁棒性高于 RoBERTa。同时,我们还论证了 RoBERTa 和 T5 中存在技能神经元,并发现 T5 中在非对抗性数据中确定的技能神经元也是对对抗性数据具有预测性的,而 RoBERTa 则不然。我们得出结论,较高的对抗性鲁棒性可能与模型在对抗性数据上激活相关技能神经元的能力有关。