BadCLIP：针对 CLIP 的触发器感知提示学习的后门攻击

Nov, 2023

BadCLIP：针对 CLIP 的触发器感知提示学习的后门攻击

BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP

Jiawang Bai, Kuofeng Gao, Shaobo Min, Shu-Tao Xia, Zhifeng Li...

TL;DR本研究提出了一种名为 BadCLIP 的方法，针对 CLIP 模型在 prompt 学习阶段注入后门，通过影响图像和文本编码器的方式生成可触发的上下文，实现对图片和文本特征的修改，从而进行高效且具有泛化能力的攻击。实验证实，BadCLIP 在多个数据集上表现出与先进的 prompt 学习方法相近的准确性，攻击成功率在大多数情况下超过 99%；BadCLIP 在未知类别上也具有泛化能力，并在跨数据集和跨领域场景下展现了强大的泛化能力。

Abstract

Contrastive Vision-Language Pre-training, known as CLIP, has shown promising effectiveness in addressing downstream image recognition tasks. However, recent works revealed that the clip model can be implanted with a downstream-oriented backdoor. On →

clip model downstream tasks backdoor attacks learnable prompts badclip

发现论文，激发创造

BDetCLIP：多模态提示对照测试时后门检测

通过对类描述文本和图像之间的余弦相似度分布差异进行对比，我们提出了 BDetCLIP，一种用于检测植入后门样本的创新测试时间后门检测方法，该方法相对于现有的后门检测方法在效果和效率方面都具有优势。

May, 2024

CleanCLIP: 多模态对比学习中缓解数据污染攻击

介绍了一种解决多模态表征学习领域中后门攻击问题的新方法 CleanCLIP，可以帮助模型减弱后门数据带来的错误训练结果。同时，该方法可以通过对单个模态的预训练任务进行微调的方式来提高模型的鲁棒性。

Mar, 2023

BadCLIP: 多模态对比学习的双嵌入引导后门攻击

本文介绍了一种名为 oolns 的抵抗后门检测和模型优化防御的攻击，通过基于贝叶斯规则的双嵌入引导框架，在自然触发模式中实现了视觉触发模式的文本目标语义近似，并通过优化视觉触发模式与目标视觉特征的一致性对目标样本进行了污染，证明其对现有的后门防御具有显著优势，引发了对多模态对比学习的潜在威胁的关注，并鼓励开发更加健壮的防御机制。

Nov, 2023

安全第一：针对有针对性数据污染和后门攻击的预训练 CLIP

SAFECLIP 通过应用单模态对比学习预训练 CLIP 模型，通过逐渐增加安全子集的大小，有效地防止了有针对性的数据污染和后门攻击，而不损害 CLIP 在各种数据集上的性能。

Oct, 2023

对抗攻击下的稳健对比语言 - 图像预训练

本文提出了 RoCLIP 方法，通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联，从而实现对 CLIP 多模态模型的强化预训练和微调，有效降低目标数据污染和后门攻击的成功率，并提高模型性能。

Mar, 2023

AdvCLIP：多模态对比学习中与下游无关的对抗样本

使用 AdvCLIP 构建通用的对抗例子，用于欺骗继承了受害交叉模态预训练编码器的所有下游任务，以实现跨模态图像文本检索和图像分类等复杂任务的非目标攻击。

Aug, 2023

DialCLIP: 增强 CLIP 作为多模态对话检索器

提出了一种名为 DialCLIP 的参数高效的提示调整方法，用于多模态对话检索，通过仅调整总参数的 0.04％实现了在两个广泛认可的基准数据集上的最新性能，突出了该方法的功效和效率，强调其推动多模态对话检索领域发展的潜力。

Jan, 2024

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021

深度神经网络实际应用中的高效后门攻击

本文提出了一种新的方法应对数据受限的后门攻击，使用预训练的 CLIP 模型并引入了基于 “干净特征抑制” 和 “污染特征增强” 两大技术来有效地操纵模型的行为，实验表明该方法可显着提高攻击成功率。

Jun, 2023

BadPrompt: 连续提示的后门攻击

本文提出了 BadPrompt 算法，用于进行基于触发模式的后门攻击，其可以攻击连续提示模型，我们在五个数据集和两个连续提示模型上进行了评估，并展示了 BadPrompt 有效地攻击连续提示的能力，同时在干净的测试集上保持高性能，在增量配置下较基线模型表现更好。

Nov, 2022