Feb, 2024

LoRA 作为攻击!在共享播放场景下穿透 LLM 安全

TL;DR在这项研究中,我们深入研究了在不断增长的共享和使用情境中,如何将后门注入 LoRA 模块,并更深入地探索了 LoRA 的感染机制。我们发现,在 LoRA 后门注入中,无需进行训练即可实现机制。同时,我们还研究了当多个 LoRA 适应并存以及基于 LoRA 的后门传递能力时的后门攻击影响。我们的目标是提高人们对新兴共享和使用情境中潜在风险的意识,以便主动预防由 LoRA 作为攻击手段可能引发的潜在后果。