Nov, 2023

BadCLIP:针对 CLIP 的触发器感知提示学习的后门攻击

TL;DR本研究提出了一种名为 BadCLIP 的方法,针对 CLIP 模型在 prompt 学习阶段注入后门,通过影响图像和文本编码器的方式生成可触发的上下文,实现对图片和文本特征的修改,从而进行高效且具有泛化能力的攻击。实验证实,BadCLIP 在多个数据集上表现出与先进的 prompt 学习方法相近的准确性,攻击成功率在大多数情况下超过 99%;BadCLIP 在未知类别上也具有泛化能力,并在跨数据集和跨领域场景下展现了强大的泛化能力。