Oct, 2023

少即是多:对参数高效微调的木马攻击

TL;DR参数高效微调 (PEFT) 机制使得能够有效地将预训练语言模型 (PLMs) 适应特定任务。然而,尽管其被广泛使用,PEFT 的安全风险还没有被充分探索。本文通过进行初步研究揭示 PEFT 对特洛伊攻击存在独特的脆弱性。通过双层优化来适应下游任务,我们提出了一种新颖的攻击方式 PETA。通过在各种下游任务和触发器设计上的广泛评估,我们展示了 PETA 在攻击成功率和未受影响的纯净准确性方面的有效性,即使在受害用户使用无污染数据对被植入后门的 PLM 进行 PEFT 后仍然有效。此外,我们基于此理论对 PETA 的效果提供了实证解释:双层优化在本质上 “正交化” 了后门和 PEFT 模块,从而在 PEFT 过程中保留了后门。基于这种理解,我们探索了一种简单的防御方法,即在被植入后门的 PLM 的选定层中省略 PEFT,并解冻这些层的参数子集,结果表明这种方法能够有效地中和 PETA。