Nov, 2023

DALA:一种基于分布感知的 LoRA 方法对抗预训练语言模型

TL;DR通过考虑对抗样本的分布变化以提高检测方法下的攻击效果,我们提出了一种分布感知的 DALA 对抗攻击方法,并设计了一个评价指标 NASR,结合 ASR 和检测,验证 DALA 生成的对抗样本在 BERT 和 LLaMA2-7b 模型上的攻击效果。