Mar, 2023

通过提示进行模型调整使 NLP 模型具有对抗鲁棒性

TL;DR该研究通过 Model-tuning Via Prompts (MVP) 修改输入而非模型以适应下游任务,在三个分类数据集上提高对抗性的稳健性,超过标准方法平均 8%和对抗性训练的最新防御技术 3.5%。研究结果发现多层感知器 (MLP) 易受对抗性扰动的影响归因于预训练和微调任务之间的不匹配和 MLP 参数的随机初始化。