Mar, 2024

坚如磐石:开源基础模型能否用于为下游任务创建对抗性例子?

TL;DR基于开源的基础模型 CLIP 的先前训练,我们揭示了其对下游模型的共享对抗性漏洞,并提出了一种名为 Patch Representation Misalignment(PRM)的简单而有效的对抗性攻击策略,该方法可以同时欺骗 4 个常见视觉 - 语言任务中的超过 20 个下游模型,呼吁在这些场景中更加谨慎。